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内 容 简介 

本 书 用 通俗 易 懂 的 语言 深入 浅 出 地 介绍 了 强化 学 习 的 基本 原理 ， 
覆盖 了 传统 的 强化 学 习 基 本 方法 和 当前 炙手可热 的 深度 强化 学 习 方 
法 。 开 篇 从 最 基本 的 马尔 科 夫 决策 过 程 入 手 ， 将 强化 学 习 问 题 纳入 到 
严谨 的 数学 框架 中 ， 接 着 前述 了 解决 此 类 问题 最 基本 的 方法 一 一 动态 
规划 方法 ， 并 从 中 总 结 出 解决 强化 学 习 问题 的 基本 思路 : 交互 迭代 策 
略 评估 和 策略 改善 。 基 于 这 个 思路 ， 分 别 介绍 了 基于 值 阔 数 的 强化 学 
习 方 法 和 基于 直接 策略 搜索 的 强化 学 习 方 法 。 最 后 介绍 了 逆向 强化 学 
习 方 法 和 近年 具有 代表 性 、 比 较 前 沿 的 强化 学 习 方 法 。 

除了 系统 地 介绍 基本 理论 ， 书 中 还 介绍 了 相应 的 数学 基础 和 编程 
实例 。 因 此 ， 本 书 既 适合 零 基础 的 人 员 入 门 学 习 、 也 适合 相关 科研 人 
员 作 为 研究 参考 。 


未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
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推荐 序 一 


强化 学 习 是 机 器 学 习 的 一 个 重要 分 支 ， 它 试图 解决 决策 优化 的 问 
题 。 所 谓 决 策 优化 ， 是 指 面 对 特 定 状态 (State, S) ， 采 取 什 么 行动 
方案 (Action, A) ， 才 能 使 收益 最 大 (Reward，R) 。 很 多 问题 都 与 
决策 优化 有 关 ， 比 如 下 棋 、 投 资 、 课 程 安排 、 驾 车 ， 动 作 模仿 等 。 

AlphaGo 的 核心 算法 ， 就 是 强化 学 习 。AlphaGo 不 仅 稳 操 胜 券 地 战 
胜 了 当今 世界 所 有 人 类 高 手 ， 而 且 甚 至 不 需要 学 习 人 类 棋 手 的 棋谱 ， 
完全 靠 自 己 摸索 ， 就 在 短 短 几 天 内 ， 发 现 并 超越 了 一 千 多 年 来 人 类 积 
累 的 全 部 围棋 战略 战术 。 

最 简单 的 强化 学 习 的 数学 模型 ， 是 马尔 科 夫 决策 过 程 (Markov 
Decision Process，MDP) 。 之 所 以 说 MDP 是 一 个 简单 的 模型 ， 是 因为 
它 对 问题 做 了 很 多 限制 。 

1. 面 对 的 状态 st ， 数 量 是 有 限 的 。 

2. 采 取 的 行动 方案 at ， 数 量 也 是 有 限 的 。 

3. 对 应 于 特定 状态 st ， 当 下 的 收益 rt 是 明确 的 。 

4. 在 某 一 个 时 刻 t， 采 取 了 行动 方案 at ， 状 态 从 当前 的 st 转换 成 下 


一 个 状态 st+1 。 下 一 个 状态 有 多 种 可 能 ， 记 为 $i, 5 i=1...no 

换 句 话说 ， 面 对 局 面 St » 采取 行动 dt > 下 一 个 状态 是 so ’ 不 是 
确定 的 ， 而 是 概率 的 ， 状 态 转换 概率 ， 记 为 P( si1 | sw ) 。 但 是 状态 
转换 只 依赖 于 当前 状态 st ， 而 与 先前 的 状态 st-1 ，st-? … 无 关 。 

解决 马尔 科 夫 决策 过 程 问 题 的 党 用 的 算法 ， 是 动态 规划 
(Dynamic Programming) 。 

对 马尔 科 夫 决策 过 程 的 各 项 限制 ， 不 断 放 松 ， 研 究 相 应 的 算法 ， 
是 强化 学 习 的 目标 。 例 如 对 状态 st 放松 限制 : 


1. 假 如 状态 st 的 数量 ， 虽 然 有 限 ， 但 是 数量 巨大 ， 如 何 降低 动态 
规划 算法 的 计算 成 本 ; 

2. 假 如 状态 st 的 数量 是 无 限 的 ， 现 有 动态 规划 算法 失效 ， 如 何 改 
进 算 法 ; 

3. 假 如 状态 st 的 数量 不 仅 是 无 限 的 ， 而 且 取 值 不 是 离散 的 ， 而 是 
连续 的 ， 如 何 改 进 算法 ; 

4. 假 如 状态 st 不 能 被 完全 观察 到 ， 只 能 被 部 分 观察 到 ， 剩 余部 分 
被 遮挡 或 缺失 ， 如 何 改进 算法 ; 

5. 假 如 状态 st 完全 不 能 被 观察 到 ， 只 能 通过 其 他 现象 猜测 潜在 的 
状态 ， 如 何 改进 算法 。 

放松 限制 ， 就 是 提升 问题 难度 。 在 很 多 情况 下 ， 强 化 学 习 的 目 
标 ， 不 是 寻找 绝对 的 最 优 解 ， 而 是 寻找 相对 满意 的 次 优 解 。 

强化 学 习 的 演进 ， 有 两 个 轴线 : 一 个 是 不 断 挑战 更 难 的 问题 ， 不 
断 从 次 优 解 向 最 优 解 逼 近 ; 另 一 个 是 在 不 严重 影响 算法 精度 的 前 提 
下 ,不 断 降低 算法 的 计算 成 本 。 

此 书 的 叙述 线索 非常 清晰 ， 从 最 简单 的 解决 马尔 科 夫 决策 过 程 的 
动态 规划 算法 ， 一 路 讲解 到 最 前 沿 的 深度 强化 学 习 算 法 (Deep Q 
Network, DQN) ， 单 刀 直 入 ， 全 无 校 枝 葛 营 之 感 。 不 仅 解 释 数 学 原 
理 ， 而 且 注 重 编 程 实 践 。 同 时 ,行文 深入 浅 出 ， 通 俗 易 懂 。 

将 本 书 与 Richard Sutton 和 Andrew Barto 合 著 的 经 典 著 作 
Reinforcement Learning: An Introduction, Second Edition 相 比 ，Sutton 
和 Barto 在 内 容 上 更 注重 人 全面， 覆盖 了 强化 学 习 各 个 分 支 的 研究 成 果 ; 
而 本 书 更 强调 实用 ， 是 值得 精读 的 教材 。 

XB fii, 

PhD of Robotics Institute , School of Computer Science, Carnegie 
Mellon University, Af Oracle 主任 架构 师 、 前 百度 网 页 搜索 部 高 级 总 
监 、 北 京 大 数 医 达 科技 有 限 公 司 创始 人 
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强化 学 习 又 称 为 增强 学 习 或 再 励 学 习 (Reinforcement learning) , 
Æ AlphaGo, AlphaGo Zero 等 人 工 智 能 软件 的 核心 技术 。 近 年 来 ， 随 
着 高 性 能 计算 、 大 数据 和 深度 学 习 技 术 的 突飞猛进 ， 强 化 学 习 算 法 及 
其 应 用 也 得 到 更 为 广泛 的 关注 和 更 加 快速 的 发 展 。 尤 其 是 强化 学 习 与 
深度 学 习 相 结合 而 发 展 起 来 的 深度 强化 学 习 技术 已 经 取得 若干 突破 性 
进展 。AlphaGo 与 人 类 顶级 棋 手 之 间 的 对 弈 ， 使 得 深度 强化 学 习 技 术 
在 学 术 界 和 工业 界 得 到 了 更 为 广泛 的 关注 。 强 化 学 习 不 仅 在 计算 机 博 
弈 中 取得 巨大 成 功 ， 而 且 在 机 器 人 控制 、 汽 车 智能 驾驶 、 人 机 对 话 、 
过 程 优化 决策 与 控制 等 领域 ， 也 被 认为 是 实现 高 级 人 工 智 能 最 有 洪 
的 方法 。 

本 人 在 多 年 从 事 强 化 学 习 与 近似 动态 规划 理论 和 应 用 的 研究 过 程 
中 ,力求 不 断 提升 强化 学 习 算 法 的 快速 收敛 性 和 泛 化 性 能 ， 并 且 将 强 
化 学 习 新 理论 和 新 算法 应 用 于 移动 机 器 人 和 自主 驾驶 车 辆 等 领域 ， 为 
智能 移动 机 器 人 和 自主 驾驶 车 辆 在 复杂 、 不 确定 条 件 下 的 自主 优化 决 
策 和 自学 习 控 制 提供 高 效 的 技术 手段 。 今 后 ， 随 着 相关 理论 和 技术 的 
不 断 进步 ， 强 化 学 习 技术 在 智能 机 器 人 和 自主 驾驶 车 辆 、 复 杂 生 产 过 
程 的 优化 决策 与 控制 、 天 空 与 海洋 无 人 系统 等 领域 的 应 用 将 很 快 会 有 
新 的 突破 。 

强化 学 习 的 思想 从 20 世纪 初 便 被 提出 来 了 ， 经 过 将 近 一 个 世纪 的 
发 展 ， 强 化 学 习 与 心理 学 、 运 筹 学 、 智 能 控制 、 优 化 理论 、 计 算 智 
能 、 认 知 科 学 等 学 科 有 着 密切 的 联系 ， 是 一 个 典型 的 多 学 科 交 叉 领 
域 。 来 自 不 同学 科 的 概念 和 思想 使 得 初学 者 学 习 和 了 解 强 化 学 习 存 在 
较 大 的 困难 。 郭 完 博 士 和 方 勇 纯 教授 的 这 本 《深入 浅 出 强化 学 习 : 原 
理 入 门 》 用 通俗 的 语言 系统 地 讲解 了 强化 学 习 的 基本 概念 以 及 它们 之 
间 的 关联 关系 。 从 内 容 的 广度 来 看 ， 这 本 书 涵盖 了 强化 学 习 领 域 的 基 
本 概念 和 基本 方法 (基于 值 冰 数 的 方法 和 基于 直接 策略 搜索 的 方 
法 ) ;从 内 容 的 深度 来 看 ， 这 本 书 既 有 传统 的 强化 学 习 算法 (基于 表 
格 的 强化 学 习 方 法 ， 如 Qlearning，Sarsa 算 法 等 ) ， 也 有 最 近 发 展 起 来 
的 深度 强化 学 习 算 法 (如 DQN，TRPO，DDPG 等 ) 。 另 外 ， 该 书 还 有 


两 大 特色 : 第 一 ， 在 介绍 强化 学 习 算法 的 同时 ， 相 应 地 介绍 了 算法 设 
计 和 分 析 的 数学 基础 第 二 ， 相 关 算 法 配 有 代码 实例 。 这 两 个 特色 使 
得 该 书 非 党 适合 初学 者 、 相 关 领 域 科研 人 员 以 及 研究 生 学 习 和 研讨 。 
鉴于 此 ， 强 烈 推 荐 该 书 作 为 广大 读者 学 习 强化 学 习 技 术 的 入 门 读物 ， 
也 希望 该 书 能 引导 和 帮助 更 多 的 学 者 投入 到 强化 学 习 的 研究 和 应 用 
中 ， 为 我 国 新 一 代 和 人工 智 能 的 友 展 贡献 自己 的 力量 。 

RAT 

国防 科技 大 学 教授 
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继 深度 学 习 与 大 数据 结合 产生 了 巨大 的 技术 红利 之 后 ， 人 们 开始 
探索 后 深度 学 习 时 代 的 新 技术 方向 。 当 前 主流 的 机 器 学 习 范 式 大 都 是 
以 预先 收集 或 构造 数据 及 标签 ， 基 于 已 存在 的 静态 数据 进行 机 器 学 习 
为 特征 的 “ 开 环 学 习 ”。 近 年 来 ， 采 用 动态 的 数据 及 标签 ， 将 数据 产生 
与 模型 优化 通过 一 定 的 交互 方式 结合 在 一 起 ， 将 动态 反馈 信号 引入 学 
习 过 程 的 “闭环 学 习 ” 受 到 越 来 越 多 的 关注 。 强 化 学 习 就 是 “闭环 学 习 ” 
沁 式 的 典型 代表 。 

在 AlphaGo 战 胜 人 类 围棋 选手 之 后 ，AlphaGO Zero 以 其 完全 凭借 
自我 学 习 超越 人 类 数 千 年 经 验 的 能 力 再 次 刷新 了 人 类 对 人 工 智 能 的 认 
识 。 而 这 一 人 工 智能 领域 的 巨大 成 功 的 核心 就 是 强化 学 习 与 深度 学 习 
的 结合 ， 这 也 使 得 强化 学 习 这 一 行为 主义 学 习 范 式 ， 受 到 了 学 术 界 和 
产业 界 的 新 一 轮 广 泛 天 注 。 

本 书 的 出 版 正 是 在 这 样 的 背景 下 ， 可 谓 恰 逢 其 时 。 本 书 深入 浅 出 
地 对 强化 学 习 的 理论 进行 了 综合 全 面 的 介绍 ， 系 统 完整 又 通俗 易 懂 。 
同时 ， 结 合 OpenAI 的 仿真 环境 ， 将 强化 学 习 算法 的 实际 使 用 与 理论 介 
绍 联系 起 来 ， 具 有 很 强 的 实用 性 。 在 强化 学 习 方 法 论 得 到 广泛 关注 ， 
以 及 其 实践 需求 快速 增长 的 背景 下 ， 这 是 一 本 很 好 的 入 门 教程 。 

俞 凯 

上 海 交 通 大 学 研究 
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AlphaGo 的 诞生 掀起 了 GRE) 强化 学 习 技术 的 一 轮 热潮 ， 该 方 
向 已 成 为 人 工 智能 领域 最 热门 的 方向 之 一 ， 由 于 其 通用 性 而 备 受 各 个 
应 用 领域 推 些 ， 从 端 对 端 控制 、 机 器 人 手臂 控制 ， 到 推荐 系统 、 自 然 
语言 对 话 系统 等 。 (深度 ) 强化 学 习 也 被 OpenAI 等 公司 认为 是 实现 通 
用 人 工 智能 的 重要 途径 。 

然而 目前 强化 学 习 中 文 资料 相对 零散 ， 缺 少 兼 具 系 统 性 和 前 沿 性 
的 强化 学 习 教学 及 科研 资料 。 郭 博士 的 《深入 浅 出 强化 学 习 : 原理 入 
门 》 这 本 书 恰好 填补 了 这 一 空白 。 本 书 根据 郭 博士 在 知 平 的 强化 学 习 
专栏 内 容 整理 而 成 ， 条 分 缕 析 、 通 俗 易 懂 ， 既 对 强化 学 习 基 础 知识 做 
了 全 方面 "深入浅出 "的 讲述 ， 又 涵盖 了 深度 强化 学 习 领域 一 系列 最 新 
的 前 沿 技术 。 因 此 它 无 论 是 对 强化 学 习 的 入 门 者 ， 还 是 强化 学 习 领域 
研究 人 员 和 工程 师 ， 都 是 一 本 很 好 的 推荐 读物 ， 相 信 不 同 的 读者 都 会 
从 中 获 益 。 

郝 建 业 

天 津 大 学 副教授 、 天 津 市 青年 千 人 、 天 津 大 学 “北洋 青年 学 者 ” 
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受 行为 主义 心理 学 研究 启发 ， 在 机 器 学 习 领 域 中 产生 了 一 种 交互 
式 学 习 方 法 的 分 支 ， 这 便 是 强化 学 习 ， 又 称 为 增强 学 习 。 强 化 学 习 模 
拟 的 是 人 类 的 一 种 学 习 方式 ， 在 执行 某 个 动作 或 决策 后 根据 执行 效果 
来 获得 奖励 ， 通 过 不 断 与 环境 的 交互 进行 学 习 ， 最 终 达 到 目标 。 强 化 
学 习 概念 早 在 上 世纪 就 已 经 提出 ， 在 计算 机 领域 ， 第 一 个 增强 学 习 问 
题 是 利用 奖惩 手段 学 习 迷 宫 策 略 。 然 而 ， 直 到 2016 年 AlphaGo 对 决 李 
世 石 一 战 成 名 后 ， 强 化 学 习 的 概念 才 真 正 广为人知 。 强 化 学 习 主 要 应 
用 于 众多 带 有 交互 性 和 决策 性 问题 ， 比 如 博弈 、 游 戏 、 机 器 人 、 人 机 
对 话 等 ， 这 些 问题 是 常用 的 监督 学 习 和 非 监督 学 习 方 法 无 法 很 好 处 理 
的 。 

本 人 一 直 从 事 移 动机 器 人 、 机 器 视觉 和 机 器 学 习 领 域 的 研究 ， 以 
及 人 工 智 能 课程 的 教学 。 此 前 ， 为 了 解决 人 形 机 器 人 斜坡 稳定 行走 问 
题 ， 在 查阅 深度 学 习 相关 资料 的 过 程 中 ， 在 网 上 偶然 看 到 郭 完 博士 开 
辟 的 强化 学 习 专 栏 ， 读 后 很 有 收获 。 现 在 他 将 专栏 文章 整理 编著 成 
书 ， 重 新 按 知识 层次 进行 编排 和 补充 ， 对 于 读者 学 习 更 有 帮助 。 

本 书 覆 盖 了 强化 学 习 最 基本 的 概念 和 算法 。 在 基于 值 疯 数 的 强化 
学 习 方 法 中 ， 介 绍 了 蒙特 卡 罗 法 、 时 间 差 分 法 和 值 函 数 逼 近 法 。 在 基 
于 直接 策略 搜索 的 强化 学 习 方 法 中 ， 介 绍 了 策略 梯度 法 、 置 信 域 策略 
法 、 确 定性 策略 搜索 法 和 引导 策略 搜索 。 在 强化 学 习 的 前 沿 部 分 ， 介 
绍 了 逆向 强化 学 习 、 深 度 强化 学 习 和 PILCO 等 。 除 了 深度 学 习 算 法 本 
身 ， 书 中 还 对 涉及 的 基础 知识 ， 如 概率 学 基础 、 马 尔 科 夫 决策 过 程 、 
线性 方程 组 的 数值 求解 方法 、 疗 数 允 近 方法 、 信 息 论 中 炉 和 相对 灼 
概念 等 也 做 了 详细 的 说 明 。 本 书 非常 适合 科技 人 员 、 高 等 学 校 师 生 和 
感 兴趣 人 员 作 为 入 门 强化 学 习 的 读物 ， 也 可 作为 相关 研究 和 教学 的 参 
考 书 。 

本 书 内 容 深 入 浅 出 、 文 字 简 单 明 了 ， 采 用 了 丰富 的 实例 ， 让 读者 
易 读 、 易 懂 。 同 时 配 有 习题 和 代码 详解 ， 能 有 效 提升 读者 对 理论 知识 
的 理解 ， 帮 助 读者 运用 理论 解决 实际 问题 。 建 议 读者 跟随 书 中 的 示例 


和 代码 (https: //github.com/gxnk/reinforcement-learning-code) 来 实现 
和 验证 相关 强化 学 习 算 法 ， 并 可 同时 关注 作者 的 知 乎 专栏 
(https: //zhuanlan.zhihu.com/sharerl) 以 便 更 好 地 互动 和 探讨 相关 细 
节 。 
陈 白 帆 
中 南大 学 副教授 湖南 省 自 兴 人 工 智能 研究 院 副 院 长 


前 言 


2017 年 5 月 ，AlphaGo 击 败 世 界 围棋 冠军 柯 洁 ， 标 志 着 人 工 智 能 进 
入 一 个 新 的 阶段 。AlphaGo 背 后 的 核心 算法 一 一 深度 强化 学 习 一 一 成 
为 继 深 度 学 习 之 后 广泛 受 人 关注 的 前 沿 热 点 。 与 深度 学 习 相 比 ， 深 度 
强化 学 习 具 有 更 宽泛 的 应 用 背景 ， 可 应 用 于 机 器 人 人、 游戏 、 自 然 语 言 
处 理 、 图 像 处 理 、 视 频 处 理 等 领域 。 深 度 强 化 学 习 算 法 被 认为 是 最 有 
可 能 实现 通用 人 工 智 能 计算 的 方法 。 不 过 ， 由 于 深度 强化 学 习 算 法 融 
合 了 深度 学 习 、 统 计 、 信 息 学 、 运 筹 学 、 概 率 论 、 优 化 等 多 个 学 科 的 
内 容 ， 因 此 强化 学 习 的 入 门 门槛 比较 高 ， 并 且 ， 到 目前 为 止 ， 市面 上 
没有 一 本 零 基础 全 面 介 绍 强 化 学 习 算 法 的 书籍 。 

本 书 是 笔者 在 南开 大 学 计算 机 与 控制 工程 学 院 做 博士 后 期 间 ， 每 
周 在 课题 组 内 讲解 强化 学 习 知 识 的 讲义 合集 。 在 学 习 强 化 学 习 基本 理 
论 的 时 候 ， 我 深 深 地 感受 到 强化 学 习 理 论 中 的 很 多 概念 和 公式 都 很 难 
理解 。 经 过 大 量 资料 和 文献 的 查阅 并 终于 理解 一 个 全 新 的 概念 时 ， 内 
心 涌现 的 那 种 喜悦 和 兴奋 ， 鼓 动 着 我 将 这 些 知 识 分 享 给 大 家 。 为 此 ， 
我 在 知 乎 开辟 了 《强化 学 习 知 识 大 讲堂 》 专 栏 ， 并 基本 保持 了 每 周一 
次 更 新 的 速度 。 该 专栏 得 到 大 家 的 关注 ， 很 多 知 友 反映 受益 良 多 ， 本 
书 的 纵 形 正 是 来 源 于 此 。 在 成 书 时 ， 考 虑 到 书 的 逻辑 性 和 完整 性 ， 又 
添加 了 很 多 数学 基础 和 实例 讲解 。 和 希望 本 书 能 帮助 更 多 的 人 入 门 强化 
学 习 ， 开 启 自己 的 人 工 智 能 之 旅 。 

在 写作 过 程 中 ， 博 士 后 合作 导师 方 勇 纯 教授 给 了 大 量 的 建议 ， 包 
括 书 的 整体 结构 、 每 一 章 的 讲述 方式 ， 甚 至 每 个 标题 的 选择 。 写 作 
E, 方 老师 细致 地 审阅 了 全 文 ， 给 出 了 详细 的 批注 ， 并 多 次 当面 指导 
书稿 的 修改 。 正 是 因为 方 老师 的 耐心 指导 与 辛勤 付出 ， 本 书 才 得 以 顺 
利 完成 。 

同时 ， 非 常 感谢 组 内 的 研究 生 丁 杰 、 朱 威 和 赵 铭 慧 三 位 同学 ， 通 
过 与 他 们 的 交流 ， 我 学 会 了 如 何 更 明晰 地 讲解 一 个 概念 。 本 书 的 很 多 
讲解 方式 都 是 在 与 他 们 的 交流 中 产生 的 。 


本 书 在 写作 过 程 中 参考 了 很 多 文献 资料 ， 这 些 文献 资料 是 无 数 科 
研 工作 者 们 日 日 夜 夜 奋斗 的 成 果 。 本 书 对 这 些 成 果 进 行 加 工 并 形成 了 
一 套 自 成 体系 的 原理 入 门 教程 。 可 以 说 没有 这 些 科 研 工作 者 们 的 丰硕 
成 果 就 没有 今天 蓬勃 发 展 的 人 工 智 能 ， 也 就 没有 这 本 书 ， 在 此 对 这 些 
科学 工作 者 们 表示 由 衷 的 敬意 。 

本 书 前 六 章 的 内 容 及 组 织 思路 很 大 部 分 参考 了 David Silver 的 网 络 
课程 ， 同 时 参考 了 强化 学 习 鼻 祖 Richard S.Sutton 等 人 所 著 的 
Reinforcement Learning: An Introduction, 7EJIEMA)Silver4] Sutton MiKo 

本 书 第 8 章 介 绍 了 置信 域 强化 学 习 算 法 ， 主 要 参考 了 John Shulman 
的 博士 论文 ， 在 此 向 John Shulman 博 士 及 其 导师 Pieter Abbeel 致 敬 。 
第 10 章 主要 介绍 了 Sergey Levine 博 士 的 工作 ， 在 此 对 其 表示 感谢 。 在 
强化 学 习 前 沿 部 分 ， 本 书 介 绍 了 最 近 一 年 该 领域 很 优秀 的 研究 工作 ， 
如 Donoghue 的 组 合 策略 梯度 和 Qlearning 方 法 ，Tamar 的 值 迭代 网 络 ， 
Deisenroth 的 PILCO 方 法 和 McAllister 的 PILCO 扩 展 方 法 ， 在 此 对 这 些 作 
者 表示 感谢 。 当 然 ， 本 书 还 介绍 了 很 多 其 他 科研 工作 者 的 工作 ， 在 此 
对 他 们 一 并 致谢 。 

本 书 前 述 的 主要 是 前 人 提出 的 强化 学 习 算 法 的 基本 理论 ， 并 没有 
介绍 笔者 个 人 的 工作 ， 但 在 此 仍然 要 感谢 目前 我 负责 的 两 项 基金 的 支 
持 : 国家 自然 科学 基金 青年 基金 (61603200) 和 中 国 博 士 后 基金 面 上 
项 目 (2016M601256) 。 这 两 个 项 目 都 和 强化 学 习 有 关 ， 本 书 也 可 看 
成 是 这 两 个 项 目的 前 期 调研 和 积累 。 关 于 更 多 笔者 个 人 的 工作 ， 留 待 
以 后 再 与 大 家 分 享 。 

由 于 个 人 水 平 有 限 ， 书 稿 中 难免 有 错误 ， 欢 迎 各 位 同行 和 读者 批 
评 指正 。 我 的 个 人 邮箱 是 guoxiansia@D163.com ， 如 有 有 疑问， 欢迎 咨 
询 。 

最 后 ， 感 谢 我 的 家 人 ， 感 谢 我 的 爱人 王 凯 女士 ， 感 谢 她 长 时 间 对 
我 的 理解 和 支持 ， 没 有 她 的 帮助 ， 我 一 无 所 有 ， 一 事 无 成 。 这 本 书 献 
给 她 。 

郭 完 

2017 年 11 月 
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1 绪论 
1.1 这 是 一 本 什么 书 


这 是 一 本 人 人 都 可 以 读 懂 的 书 。 唐 代 大 诗人 白居易 写 诗 定稿 的 标 
准 是 “老娘 能 解 ”， 也 就 是 说 只 有 连 市 井中 的 老 妇 人 都 能 听 懂 的 诗 才 是 
好 诗 。 本 书 力求 做 到 这 一 点 。 不 过 ， 真 正 做 到 “老娘 能 解 ” 的 程度 还 是 
有 困难 的 。 因 为 强化 学 习 是 集 数学 、 工 程 学 、 计 算 机 科学 、 心 理学 、 
神经 科学 于 一 身 的 交叉 学 科 。 力 图 将 这 门 “深奥 * 的 学 科 讲 明白 ， 是 写 
作 本 书 的 目的 。 

本 书 讲 的 是 强化 学 习 算 法 ， 什 么 是 强化 学 习 算法 呢 ， 它 离 我 们 有 
多 远 ? 2016 年 和 2017 年 最 具 影 响 力 的 AlphaGo 大 胜 世 界 围棋 冠军 李 世 
石和 柯 洁 事件 ， 其 核心 算法 就 用 到 了 强化 学 习 算 法 。 相 信 很 多 人 想 了 
解 或 者 转行 研究 强化 学 习 算法 或 多 或 少 都 跟 这 两 场 赛事 有 联系 。 如 
今 ， 强 化 学 习 继 深度 学 习 之 后 ， 成 为 学 术 界 和 工业 界 追 捧 的 热点 。 从 
目前 的 形式 看 ， 强 化 学 习 正 在 各 行 各 业 开 花 结果 ， 前 途 一 片 大 好 。 然 
而 ， 强 化 学 习 的 入 门 却 很 难 ， 明 明知 道 它 是 一 座 “ 金 山 *"， 可 是 由 于 总 
不 能 入 门 ， 只 能 望 “ 金 山 ” 而 兴叹 了 。 另 外 ， 市 面 上 关于 强化 学 习 的 中 
文书 并 不 多 ， 即 便 有 ， 翻 开 几 页 出 现 的 各 种 专业 术语 ， 一 下 就 把 人 搞 
异 了 。 本 来 下 定 决 心 要 哨 下 这 块 硬骨头 的 ， 可 是 哺 了 几 天 发 现 ， 越 哨 
越 痛苦 ， 连 牙 都 咯 掉 了 ， 肉 渣 还 没 吃 到 。 本 书 下 决心 不 给 大 家 吃 骨 
头 ， 只 给 肉 ， 因 此 本 书 与 其 他 教科 书 有 以 下 几 个 方面 的 不 同 。 

第 一 ， 本 书 的 语言 风格 偏 口语 化 。 因 为 本 书 的 写作 目的 是 让 大 家 
尽快 入 门 强化 学 习 。 众 所 周知 ， 学 一 门 新 的 课程 ， 最 快 的 入 门 方 式 就 
是 请 私人 家 教 进行 一 对 一 的 训练 。 然 而 ， 由 于 各 种 原因 ， 这 种 方式 并 
非 对 每 个 人 都 现实 可 行 。 而 本 书 ， 正 希望 通过 这 种 口语 化 的 方式 与 读 
者 交流 ， 尽 量 实现 一 对 一 的 训练 效果 。 读 者 们 可 以 将 这 本 书 想 象 成 自 
己 的 私人 家 教 。 

第 二 ， 本 书 不 会 将 数学 基础 作为 单独 的 章节 列 出 来 ， 而 是 在 强化 
学 习 算法 中 用 到 哪些 数学 ， 就 在 那个 章节 里 人 介绍。 这样， 就 算是 没有 


多 少数 学 基础 的 读者 也 可 以 学 习 ; 而 对 于 那些 有 效 学 基础 的 读者 ， 通 
过 将 数学 与 具体 的 强化 学 习 算法 相 结合 ， 可 以 提升 数学 的 应 用 能 力 。 

第 三 ， 本 书 的 每 部 分 都 包括 理论 讲解 ， 代 码 讲解 和 直观 解释 三 项 
内 容 。 强 化 学 习 算法 是 应 用 性 很 强 的 算法 ， 大 部 分 读者 学 习 强化 学 习 
算法 的 目的 是 用 来 解决 实际 问题 的 。 一 边 学 理论 ， 一 边 写 代 码 ， 可 以 
使 读者 在 学 习 的 过 程 中 ， 同 步 提 升 理论 研究 和 解决 问题 两 方面 的 能 
力 。 

第 四 ， 本 书 闲 盖 的 内 容 相 当 丰 富 ， 几 乎 会 涉及 强化 学 习 算 法 的 各 
个 方面 。 从 最 基础 的 强化 学 习 算 法 到 目前 最 前 治 的 强化 学 习 算法 都 会 
有 所 涉 猫 。 所 以 ， 本 书 可 以 说 是 “完全 ”教程 。 当 然 了 ， 这 里 所 谓 的 “ 完 
全 "也 只 是 相对 的 。 因 为 ， 强 化 学 习 算 法 当前 正 处 于 快速 发 展 中 ， 每 个 
月 都 会 有 新 的 突破 。 但 是 ， 强 化 学 习 的 基本 思想 是 不 会 那么 快 变 化 
的 ， 最 新 的 突破 都 是 基于 这 些 基本 的 思想 而 来 。 所 以 ， 读 完了 本 书 ， 
你 再 继续 读 最 新 的 论文 ， 就 不 会 再 有 如 读 天 书 的 感觉 了 。 或 者 说 ， 读 
完了 本 书 你 就 可 以 参与 到 构建 能 改变 世界 的 伟大 算法 中 了 。 

我 们 再 回 到 刚才 的 问题 : 什么 是 强化 学 习 算 法 ? 

要 回 丛 这 个 问题 ， 必 须 先 回答 强化 学 习 可 以 解决 什么 问题 ， 强 化 
学 习 如 何 解决 这 些 问题 。 


1.2 强化 学 习 可 以 解决 什么 问题 


如 图 1.1 所 示 是 强化 学 习 算法 的 成 功 案例 。 其 中 的 A 图 为 典型 的 非 
线性 二 级 摆 系 统 。 该 系统 由 一 个 台 车 〈 黑 体 矩 形 表 示 ) MAME (41 
色 摆 杆 ) 组 成 ， 可 控制 的 输入 为 台 车 的 左右 运动 ， 该 系统 的 目的 是 让 
两 级 摆 稳 定 在 竖 直 位 置 。 两 级 摆 问 题 是 非 线 性 系统 的 经 典 问题 ， 在 控 
制 系统 理论 中 ， 解 决 该 问题 的 基本 思路 是 先 对 两 级 摆 系 统 建立 精确 的 
动力 学 模型 ， 然 后 基于 模型 和 各 种 非 线 性 的 理论 设计 控制 方法 。 一 般 
来 说 ， 这 个 过 程 非常 复杂 ， 需 要 深厚 的 非 线 性 控制 理论 的 知识 。 而 
且 ， 在 建 模 的 时 候 需 要 知道 台 车 和 摆 的 质量 ， 摆 的 长 度 等 等 。 基 于 强 
化 学 习 的 方法 则 不 需要 建 模 也 不 需要 设计 控制 器 ， 只 需要 构建 一 个 强 
化 学 习 算 法 ， 让 二 级 摆 系 统 自己 去 学 习 就 可 以 了 。 当 学 习 训练 结束 
后 ， 二 级 摆 系 统 便 可 以 实现 自 平衡 。 图 1.1 中 的 B 图 是 训练 好 的 AlphaGo 


与 柯 洁 对 战 的 第 二 局 棋 ，C 图 则 为 机 器 人 在 仿真 环境 下 自己 学 会 了 从 
摔 倒 的 状态 爬 起 来 。 这 三 个 例子 能 很 好 地 说 明 ， 强 化 学 习 算法 在 不 同 
的 领域 能 够 取得 令 人 惊艳 的 结果 。 当 然 ， 强 化 学 习 除了 应 用 到 非 线 性 
控制 、 下 棋 、 机 器 人 等 方向 ， 还 可 以 应 用 到 其 他 领域 ， 如 视频 游戏 、 
人 机 对 话 、 无 人 驾驶 、 机 器 翻译 、 文 本 序列 预测 等 。 
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图 A 非 线性 系统 二 级 倒立 摆 
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图 1.1 强化 学 习 成 功 案例 

例子 是 举 不 完 的 ， 可 以 用 一 句 话 来 说 明 强 化 学 习 所 能 解决 的 问 
题 : 智能 决策 问题 。 更 确切 地 说 是 序 贯 决策 问题 。 什 么 是 序 贯 决策 问 
题 呢 ? 就 是 需要 连续 不 断 地 做 出 决策 ， 才 能 实现 最 终 目 标的 问题 。 如 
图 1.1 中 图 A 的 二 级 摆 问 题 ， 它 需要 在 每 个 状态 下 都 有 个 智能 决策 (在 
这 里 智能 决策 是 指 应 该 施加 给 台 车 什么 方向 、 多 大 的 力 ) ， 以 便 使 整 
个 系统 逐渐 收敛 到 目标 点 (也 就 是 两 个 摆 竖 直 的 状态 ) 。 图 B 中 的 
AlphaGo 则 需要 根据 当前 的 棋局 状态 做 出 该 下 哪个 子 的 决策 ， 以 便 蜂 得 
比赛 。 图 C 中 ， 机 颖 人 需要 得 到 当前 状态 下 每 个 关节 的 力 德 ， 以 便 能 够 
站 立 起 来 。 一 句 话 概括 强化 学 习 能 解决 的 问题 : 序 贯 决策 问题 。 那 
么 ， 强 化 学 习 是 如 何 解决 这 个 问题 的 呢 ? 


1.3 强化 学 习 如 何 解 决 问题 


在 回答 强化 学 习 如 何 解决 序 贯 决策 问题 之 前 ， 我 们 先 看 看 监督 学 
习 是 如 何 解决 问题 的 。 从 解决 问题 的 角度 来 看 ， 监 督学 习 解 决 的 是 智 
能 感知 的 问题 。 

我 们 依然 用 一 个 图 来 表示 。 如 图 1.2 所 示 ， 监 督学 习 最 典型 的 例子 
是 数字 手写 体 识别 ， 当 给 出 一 个 手写 效 字 时 ， 监 督学 习 需 要 判别 出 该 
数字 是 多 少 。 也 就 是 说 ， 监 督学 习 需 要 感知 到 当前 的 输入 到 底 长 什么 
样 ， 当 智能 体感 知 到 输入 长 什么 样 时 ， 智 能 体 就 可 以 对 它 进行 分 类 
了 。 如 图 1.2 所 示 ， 输 入 手写 体 长 得 像 4， 所 以 智能 体 就 可 以 判断 它 是 
4 了 。 智 能 感知 其 实 就 是 在 学 习 “ 输 入 ”长 得 像 什么 (特征) ， 以 及 与 该 
长 相 一 一 对 应 的 是 什么 (标签; 。 所 以 ， 智 能 感知 必 不 可 少 的 前 提 是 
需要 大 量 长 相差 异化 的 输入 以 及 与 输入 相 天 的 标签 。 因 此 ， 监 督学 习 
解决 问题 的 方法 就 是 输入 大 量 带 有 标签 的 数据 ， 让 智能 体 从 中 学 到 输 
入 的 抽象 特征 并 分 类 。 
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图 1.2 强化 学 习 与 监督 学 习 的 区 别 

强化 学 习 则 不 同 ， 强 化 学 习 要 解决 的 是 序 贯 决策 问题 ， 它 不 关心 
输入 长 什么 样 ， 只 关心 当前 输入 下 应 该 采用 什么 动作 才能 实现 最 终 的 
目标 。 再 次 强调 ， 当 前 采用 什么 动作 与 最 终 的 目标 有 关 。 也 就 是 说 当 
前 采用 什么 动作 ， 可 以 使 得 整个 任务 序列 达到 最 优 。 如 何 使 整个 任务 
序列 达到 最 优 呢 ? 这 就 需要 智能 体 不 断 地 与 环境 交互 ， 不 断 党 试 ， 因 
为 智能 体 刚 开始 也 不 知道 在 当前 状态 下 哪个 动作 有 利于 实现 目标 。 强 
化 学 习 解决 问题 的 框架 可 用 图 1.3 表 示 。 智 能 体 通过 动作 与 环境 进行 交 


互 时 ， 环 境 会 返 给 智能 体 一 个 当前 的 回报 ， 智 能 体 则 根据 当前 的 回报 
评估 所 采取 的 动作 : 有 利于 实现 目标 的 动作 被 保留 ， 不 利于 实现 目标 
的 动作 被 衰减 。 具 体 的 算法 ， 我 们 会 在 后 面 一 一 介绍 。 用 一 句 话 来 概 
括 强化 学 习 和 监督 学 习 的 异同 点 : 强化 学 习 和 监督 学 习 的 共同 点 是 两 
者 都 需要 大 量 的 数据 进行 训练 ， 但 是 两 者 所 需要 的 数据 类 型 不 同 。 监 
督学 习 需 要 的 是 多 样 化 的 标签 数据 ， 强 化 学 习 需 要 的 是 带 有 回报 的 交 
互 数 据 。 由 于 输入 的 数据 类 型 不 同 ， 这 就 使 得 强化 学 习 算法 有 它 自 己 
的 获取 数据 、 利 用 数据 的 独特 方法 。 那 么 ， 都 有 哪些 方法 呢 ? 这 是 本 
书 重 点 要 讲 的 内 容 。 在 进入 详细 的 讲解 之 人 前， 我 们 在 这 里 先 简单 地 了 
解 下 这 些 强化 学 习 算 法 的 发 展 历史 。 
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图 1.3 强化 学 习 基 本 框架 


我 们 不 去 深究 强化 学 习 算法 的 具体 发 展 历史 ， 只 给 出 两 个 关键 的 
时 间 点 。 第 一 个 关键 点 是 1998 年 ， 标 志 性 的 事件 是 Richard S.Sutton 出 版 
了 他 的 强化 学 习 导 论 第 一 版 ， 即 Reinforcement Learning: An 
Introduction 《该 书 第 二 版 的 中 文 版 将 由 电子 工业 出 版 社 出 版 ) ， 该 书 
系统 地 总 结 了 1998 年 以 前 强化 学 习 算 法 的 各 种 进展 。 在 这 一 时 期 强化 
学 习 的 基本 理论 框架 已 经 形成 。1998 年 之 前 ， 学 者 们 关注 和 发 展 得 最 
多 的 算法 是 表格 型 强化 学 习 算法 。 当 然 ， 这 一 时 期 基于 直接 策略 搜索 
的 方法 也 被 提出 来 了 。 如 1992 年 R.J.Williams 提 出 了 Rinforce 算 法 直接 
对 策略 梯度 进行 估计 。 第 二 个 关键 点 是 2013 年 DeepMind 提 出 DQN 
(Deep Q Network) ， 将 深度 网 络 与 强化 学 习 算 法 结合 形成 深度 强化 学 
习 。 从 1998 年 到 2013 年 ， 学 者 们 也 没 闲 着 ， 发 展 出 了 各 种 直接 策略 搜 
索 的 方法 。2013 年 之 后 ， 随 着 深度 学 习 的 火热 ， 深 度 强化 学 习 也 越 来 


越 引起 大 家 的 注意 。 尤 其 是 2016 年 和 2017 年 ， 合 歌 的 AlphaGo 连 续 两 年 
击败 世界 围棋 冠军 ， 更 是 将 深度 强化 学 习 推 到 了 风口 浪 尖 之 上 。 如 
今 ， 深 度 强 化 学 习 算 法 正在 如 火 如 茶 地 发 展 ， 可 以 说 正 是 百家争鸣 的 
年 代 ， 或 许 再 过 几 年 ， 深 度 强化 学 习 技 术 会 越 来 越 普 及 ， 并 发 展 出 更 
成 熟 、 更 实用 的 算法 来 ， 我 们 拭目以待 。 


1.4 强化 学 习 算法 分 类 及 发 展 趋势 


已 有 的 强化 学 习 算 法 种 类 繁多 ， 一 般 可 按 下 列 几 个 标准 来 分 类 。 

(1) 根据 强化 学 习 算 法 是 否 依赖 模型 可 以 分 为 基于 模型 的 强化 学 
习 算 法 和 无 模型 的 强化 学 习 算 法 。 这 两 类 算法 的 共同 点 是 通过 与 环境 
交互 获得 数据 ， 不 同 点 是 利用 数据 的 方式 不 同 。 基 于 模型 的 强化 学 习 
算法 利用 与 环境 交互 得 到 的 数据 学 习 系 统 或 者 环境 模型 ， 再 基于 模型 
进行 序 贯 决策 。 无 模型 的 强化 学 习 算 法 则 是 直接 利用 与 环境 交互 获得 
的 数据 改善 自身 的 行为 。 两 类 方法 各 有 优 缺 点 ， 一 般 来 讲 基 于 模型 的 
强化 学 习 算 法 效率 要 比 无 模型 的 强化 学 习 算法 效率 更 高 ， 因 为 智能 体 
在 探索 环境 时 可 以 利用 模型 信息 。 但 是 ， 有 些 根本 无 法 建立 模型 的 任 
务 只 能 利用 无 模型 的 强化 学 习 算 法 。 由 于 无 模型 的 强化 学 习 算法 不 需 
要 建 模 ， 所 以 和 基于 模型 的 强化 学 习 算 法 相 比 ， 更 具有 通用 性 。 

(2) 根据 策略 的 更 新 和 学 习 方 法 ， 强 化 学 习 算 法 可 分 为 基于 值 函 
效 的 强化 学 习 算 法 、 基 于 直接 策略 搜索 的 强化 学 习 算 法 以 及 AcC 的 方 
法 。 所 谓 基于 值 阔 效 的 强化 学 习 方 法 是 指 学 习 值 函数 ， 最 终 的 策略 根 
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前 最 优 策 略 。 基 于 直接 策略 搜索 的 强化 学 习 算法 ， 一般 是 将 策略 参数 
化 ， 学 习 实 现 目 标的 最 优 参数 。 基 于 AcC 的 方法 则 是 联合 使 用 值 函 数 和 
直接 策略 搜索 。 具 体 的 算法 会 在 后 面 介 绍 。 

(3) 根据 环境 返回 的 回报 函数 是 否 已 知 ， 强 化 学 习 算 法 可 以 分 为 
正 向 强化 学 习 和 逆向 强化 学 习 。 在 强化 学 习 中 ， 回 报 阔 效 是 人 为 指定 
的 ， 回 报 阔 效 指定 的 强化 学 习 算法 称 为 正 向 强化 学 习 。 很 多 时 候 ， 回 
报 无 法 人 为 指定 ， 如 无 人 机 的 特效 表演 ， 这 时 可 以 通过 机 器 学 习 的 方 
法 由 阔 数 自己 学 出 来 回报 。 


为 了 提升 强化 学 习 的 效率 和 实用 性 ， 学 者 们 又 提出 了 很 多 强化 学 
习 算 法 ， 如 分 层 强化 学 习 、 元 强化 学 习 、 多 智能 体 强化 学 习 、 关 系 强 
化 学 习 和 迁移 强化 学 习 等 。 这 些 主题 已 超出 了 本 书 的 范围 ， 读 者 若是 
感 兴 趣 ， 可 在 阅读 完 本 书后 在 网 上 下 载 相 关内 容 阅读 。 

强化 学 习 尤 其 是 深度 强化 学 习 正在 快速 发 展 ， 从 当前 的 论文 可 以 
初步 判断 强化 学 习 的 发 展 趋势 如 下 。 

第 一 ， 强 化 学 习 算 法 与 深度 学 习 的 结合 会 更 加 紧密 。 

机 器 学 习 算法 常 被 分 为 监督 学 习 、 非 监督 学 习 和 强化 学 习 ， 以 前 
三 类 方法 分 得 很 清楚 ， 而 如 今 三 类 方法 联合 起 来 使 用 效果 会 更 好 。 所 
以 ， 强 化 学 习 算 法 其 中 一 个 趋势 便 是 三 类 机 器 学 习 方 法 在 逐渐 走向 统 
一 的 道路 。 谁 结合 得 好 ， 谁 就 会 有 更 好 的 突破 。 该 方向 的 代表 作 如 基 
于 深度 强化 学 习 的 对 话 生成 等 。 

第 二 ， 强 化 学 习 算 法 与 专业 知识 结合 得 将 更 加 紧密 。 

如 果 将 一 般 的 强化 学 习 算法 ， 如 Qlearning 算法 直接 套 到 专业 领域 
中 ， 很 可 能 不 工作 。 这 时 一 定 不 能 灰心 ， 因 为 这 是 正常 现象 。 这 时 需 
要 把 专业 领域 中 的 知识 加 入 到 强化 学 习 算 法 中 ， 如 何 加 ? 这 没有 统一 
的 方法 ， 而 是 根据 每 个 专业 的 内 容 而 变化 。 通 常 来 说 可 以 重新 塑造 回 
报 函 数 ， 或 修改 网 络 结构 (大 家 可 以 开心 地 炼丹 灌水 了 0) 。 该 方向 
的 代表 作 是 NIPS2016 的 最 佳 论 文 值 迭 代 网 络 (Value Iteration 
Networks) 等 。 

第 三 ， 强 化 学 习 算 法 理论 分 析 会 更 强 ， 算 法 会 更 稳定 和 高 效 。 

强化 学 习 算法 大 火 之 后 ， 必 定 会 吸引 一 大 批 理 论 功底 很 强 的 牛 
人 。 这 些 牛 人 不 愁 吃 穿 ， 追 求 完美 主义 、 又 有 很 强 的 数学 技巧 ， 所 以 
在 强化 学 习 这 个 理论 还 几乎 是 空白 的 领域 ， 他 们 必定 会 建功 立业 ， 名 
垂 千 史 。 该 方向 的 代表 作 如 基于 深度 能 量 的 策略 方法 ， 值 函数 与 策略 
方法 的 等 价 性 等 。 

第 四 ， 强 化 学 习 算 法 与 脑 科 学 、 认 知 神经 科学 、 记 忆 的 联系 会 更 
紧密 。 

脑 科 学 和 认 知 神经 科学 一 直 是 机 器 学 习 灵 感 的 源泉 ， 这 个 源泉 往 
往 会 给 机 器 学 习 算 法 带 来 革命 性 的 成 功 。 人 们 对 大 脑 的 认识 还 很 片 
面 ， 随 着 脑 科 学 家 和 认 知 神经 科学 家 逐步 揭 开 大 脑 的 神秘 面纱 ， 机 器 


学 习 领 域 必定 会 再 次 受益 。 这 个 流派 应 该 是 以 DeepMind 和 伦敦 大 学 学 
院 为 首 ， 因 为 这 些 团体 里 面 不 仅 有 很 多 人 工 智 能 学 家 还 有 很 多 认 知 神 
经 科学 家 。 该 方向 的 代表 作 如 DeepMind 关 于 记忆 的 一 列 论文 。 


1.5 强化 学 习 仿真 环境 构建 


学 习 算 法 的 共同 点 是 从 数据 中 学 习 ， 因 此 数据 是 学 习 算 法 最 基本 
的 组 成 元 素 。 监 督学 习 的 数据 独立 于 算法 本 身 ， 而 强化 学 习 不 同 。 强 
化 学 习 的 数据 是 智能 体 与 环境 的 交互 数据 ， 在 交互 中 智能 体 逐 渐 地 改 
善行 为 ， 产 生 更 好 的 数据 ， 从 而 学 会 技能 。 也 就 是 说 强化 学 习 的 数据 
跟 算 法 是 交互 的 ， 而 非 独立 的 。 因 此 ， 相 比 于 监督 学 习 只 构建 一 个 学 
习 算 法 ， 强 化 学 习 还 需要 构建 一 个 用 于 与 智能 体 进行 交互 的 环境 。 

原则 上 来 说 ， 凡 是 能 提供 智能 体 与 环境 进行 交互 的 软件 都 可 以 用 
来 作为 训练 强化 学 习 的 仿真 环境 。 如 各 种 游戏 软件 ， 各 种 机 器 人 仿真 
软件 。 这 些 仿真 环境 必 备 的 两 个 要 素 是 物理 引擎 和 图 像 引 和 擎 。 物理 引 
擎 用 来 计算 仿真 环境 中 物体 是 如 何 运 动 的 ， 其 背后 的 原理 是 物理 定 
律 ， 如 刚体 动力 学 ， 流 体力 学 和 和 柔性 体 动 力学 等 。 常 用 的 开源 物理 引 
擎 有 ODE (Open Dynamics Engine) 、Bullet、Physx 和 Havok 等 。 图 像 
引擎 则 用 来 显示 仿真 环境 中 的 物体 ， 包 括 绘图 、 泻 染 等 。 常 用 的 图 像 
引擎 大 都 基于 OpenGL (Open Graphics Library) o 

本 书 中 ， 我 们 使 用 的 仿真 环境 为 OpenAlI 的 gym 

(https: //github.com/openai/gym) 。 选用 gym 平 台 的 原因 有 三 : 

首先 ，gym 是 OpenAI 开发 的 通用 强化 学 习 算 法 测试 平台 ， 背 后 有 
大 神 Pieter Abbeel, Sergey Levine 等 人 率领 的 强大 团队 的 支持 。 

其 次 ， 学 会 了 gym 的 基本 应 用 ， 可 以 自己 学 习 使 用 OpenAI 的 其 他 
开源 强化 学 习 软 件 ， 如 universe、roboschool 和 baselines 等 。 

再 次 ，gym 本 身 集 成 了 很 多 仿真 环境 ， 如 经 典 控制 中 的 车 摆 环 境 ， 
小 车 爬山 环境 、 雅 达 利 游戏 、 棋 盘 环境 等 。 利 用 这 些 写 好 的 环境 ， 可 
以 学 习 强化 学 习 算 法 的 基本 原理 。 另 外 ，gym 是 用 Python 语言 写 的 ， 可 
以 和 深度 学 习 的 开源 软件 如 TensorFlow 等 无 缝 衔接 。 

下 面 ， 我 们 看 一 下 gym 在 Linux 系 统 下 的 安装 。 


1.5.1 gym 安 装 及 简单 的 demo 示 例 


(1) 为 了 便于 管理 ， 需 要 先 装 Anaconda， 下 载 和 安装 步骤 如 下 。 
O 下 载 Anaconda 安 装 包 〈 推 荐 利用 清华 镜像 来 下 载 ) ， 下 载 地 
址 : 
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive. 


笔者 安装 的 是 Anaconda3-4.3.0 版 本 。 

(2) 安装 Anaconda。 下 载 完成 Anaconda 后 ， 安 装 包 会 在 Downloads 
文件 夹 下 (在 终端 用 Ctrl+Alt+T 组 合 键 打开 终端 ) ， 键 入 cd 
downloads， 然 后 键入 bash anaconda3_4.3.0-linux-x86_64.sh 〈 小 技巧 : 
键入 bash an 然后 按 Tab 键 ，Linux 系 统 会 自动 补 全 后 面 的 名 字 ) 

O 安装 过 程 会 询问 是 否 将 路 径 安装 到 环境 变量 中 ， 键 入 yes， 至 此 
Anaconda 安 装 完 成 。 你 会 在 目录 /home/ 你 的 用 户 名 文件 夹 下 看 到 
Anaconda 3。 关 掉 终 端 ， 再 开 一 个 ， 这 样 环境 变量 才 起 作用 。 

(2) 利用 Anaconda 建 一 个 虚拟 环境 。 

Anaconda 创 建 虚 拟 环境 的 格式 为 : conda create--name 你 要 创建 的 
名 字 Python= 版 本 号 。 比 如 我 创建 的 虚拟 环境 名 字 为 gymlab ， 用 的 
Python 版 本 号 为 3.5， 可 这 样 写 : 

conda create--name gymlab python=3.5 


操作 完 此 步 之 后 ， 会 在 anaconda3/envs 文 件 夹 下 多 一 个 gymlab。 

Python3.5 就 在 gymlab 下 的 lib 文 件 夹 中 。 
(3) 安装 gym。 

上 一 步 已 经 装 了 一 个 虚拟 环境 gymlab ， 在 这 一 步 要 开始 应 用 。 先 
开 一 个 新 的 终端 ， 然 后 用 命令 source activate gymlab 激 活 虚 拟 环境 ， 再 
装 gym。 上 有 具体 步骤 如 下 。 

QO 键入 git clone https: Wgithub.com/openai/gym.git， 将 gym 克 隆 到 
计算 机 中 。 如 果 你 的 计算 机 中 没有 安装 git， 那 么 可 以 键入 : sudo apt 
install git， 先 安装 git。 

@) cd gym 进入 gym 文 件 夹 。 

(3) pip install-e “.[al] 进 行 完 全 安装 。 等 待 ， 这 个 过 程 会 装 一 系列 的 
库 ， 装 完 后 可 以 将 gym 安装 文件 的 目录 写 到 环境 变量 中 ; 一 种 方法 是 


打开 .bashrc 文件 ， 在 末尾 加 入 语句 : 

export PYTHONPATH= 你 的 gym 目 录 : $PYTHONPATH。 

不 出 意外 的 话 ， 你 就 可 以 开始 享用 gym 了 。 

对 于 GB)， 如 果 报 错 可 以 先 安装 依赖 项 ， 键 入 命令 sudo apt-get 
install-y python-numpy python-dev cmake zliblg-dev libjpeg-dev xvfb 
libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig 


下 面 给 出 一 个 最 简单 的 例子 。 

O 开 一 个 终端 (ctrtalt+t) ， 然 后 激活 用 Anaconda 建 立 的 虚拟 环 
境 ; source activate Gymlab; 

(2) 运行 Python : python; 

(3 导入 Gym 模 块 : import gym; 

创建 一 个 小 车 倒立 摆 模 型 : env=gym.make (‘CartPole-v0’) ; 

©) 初始 化 环境 : env.reset} 

© 刷新 当前 环境 ， 并 显示 : env.render () 。 

通过 这 6 步 ， 我 们 可 以 看 到 一 个 小 车 倒立 摆 系 统 ， 如 图 1.4 所 示 。 


1.4 gym 中 的 CartPole 系 统 
1.5.2 深入 剖析 gym 环 境 构建 
本 节 我 们 将 从 上 一 小 节 的 末尾 开始 讲 三 个 重要 的 函数 : 


env = gym.make(‘CartPole-v0’) 
env.reset() 


env.render() 


第 一 个 国 数 是 创建 环境 ， 我 们 会 在 第 2 章 具 体 介 绍 如 何 创建 自己 的 
环境 ， 所 以 这 个 图 数 暂时 不 讲 。 第 二 个 图 数 envreset () 和 第 三 个 图 数 
env.render () 是 每 个 环境 文件 都 包含 的 水 数 。 我 们 以 Cartpole 为 例 ， 讲 
ABIX PATS BX. 

Cartpole 的 环境 文件 人 位置: 你 的 gym HB 
录 /gym/envs/classic_control/cartpole.py. 

该 文件 定义 了 一 个 CartPoleEnv 的 环境 类 ， 该 类 的 成 员 函 数 有 : 
seed () 、step () 、reset () 和 render () 。 上 一 小 节 末 尾 demo 中 调 
用 的 就 是 CartPoleEnv 的 两 个 成 员 陨 数 reset () 和 render () ， 我 们 先 讲 
讲 这 两 个 图 数 ， 再 介绍 step () PAR. 

1.reset () BORER 

reset () 为 重新 初始 化 函数 ， 它 有 什么 作用 呢 ? 

在 强化 学 习 算 法 中 ， 智 能 体 需 要 一 次 次 地 党 试 并 累积 经 验 ， 然 后 
从 经 验 中 学 到 好 的 动作 。 每 一 次 尝试 我 们 称 之 为 一 条 轨迹 或 一 个 
episode ， 每 次 尝试 都 要 到 达 终 止 状 态 。 一 次 尝试 结束 后 ， 智 能 体 需要 
从 头 开 始 ， 这 就 需要 智能 体 具 有 重新 初始 化 的 功能 。 函 数 reset () 就 
是 用 来 做 这 个 的 。 

reset () 的 源 代码 : 

def reset() 

self.state = self.np random.uniform(low=-0.05, high=0.05, 
size=(4,)) 

self.steps beyond done = None 

return np.array(self.state) 

第 2 行 代码 是 利用 均匀 随机 分 布 初试 化 环境 的 状态 ， 第 3 行 代码 是 
设置 当前 步 数 为 None。 第 4 行 ， 返 回环 境 的 初始 化 状态 。 

2.render () 函数 详解 


render () KREXSHBRRs|SHNRe. RIMENE 
境 必 不 可 少 的 两 部 分 是 物理 引擎 和 图 像 引 擎 。 物 理 引 擎 模拟 环境 中 物 
体 的 运动 规律 ; 图 像 引 擎 用 来 显示 环境 中 的 物体 图 像 ， 其 实 ， 对 于 强 
化 学 习 算 法 而 言 ， 可 以 没有 render () 孙 数 ， 但 是 ， 为 了 便于 直观 显示 
当前 环境 中 物体 的 状态 ， 图 像 引擎 还 是 有 必要 的 。 另 外 ， 加 入 图 像 引 
擎 可 以 方便 我 们 调试 代码 。 下 面具 体 介 绍 gym 如 何 利用 图 像 引 擎 来 创建 
图 像 。 
我 们 直接 看 产 代码 : 
Def _render (self, mode=’human’, close=False): 
if close: 


FB, BRAKE: 


if self.viewer is None: 
from gym.envs.classic control import rendering 
# 这 一 句 导 入 rendering 模块 ， 利 用 rendering 模块 中 的 画图 函数 进行 图 形 的 绘制 
# 如 绘制 600*400 的 窗口 函数 为 
self.viewer = rendering.viewer(screen width, screen_height) 
其 中 screen width=600, screen height=400 
# 创 建 小 车 的 代码 为 
l,r,t,b = -cartwidth/2, cartwidth/2, cartheight/2, -cartheight/2 
axleoffset =cartheight/4.0 
cart = rendering.FilledPolygon([(1,b), (1,t), (r,t), (r,b)]) 

其 中 rendering.FilledPolygon 为 填充 一 个 矩形 。 

创建 完 cart 的 形状 ， 接 下 来 给 cart 添 加 平移 属性 和 旋转 属性 。 将 车 
的 位 移 设 置 到 cart 的 平移 属性 中 ，cart 就 会 根据 系统 的 状态 变化 左右 运 
动 。 笔 者 已 将 具体 代码 解释 上 传 至 gihub : 
https : //github.com/gxnk/reinforcement-learning-code ， 想 深入 了 解 的 同 
学 可 去 下 载 学 习 。 

3.step () 函数 详解 

本 函数 在 仿真 器 中 扮演 物理 引擎 的 角色 。 其 输入 是 动作 a， 输 出 
是 : 下 一 步 状 态 、 立 即 回 报 、 是 否 终 止 、 调 试 项 。 它 描述 了 智能 体 与 
环境 交互 的 所 有 信息 ， 是 环境 文件 中 最 重要 的 钞 数 。 在 本 函数 中 ， 一 


般 利 用 智能 体 的 运动 学 模型 和 动力 学 模型 计算 下 一 步 的 状态 和 立即 回 
报 ， 并 判断 是 否 达 到 终止 状态 。 


我 们 直接 看 源 代码 : 


def step(self, action): 

assert self.action space.contains (action), "sr (3s) 
invalid"% (action, type(action) ) 

state = self.state 

x, x dot, theta, theta dot = state # 系 统 的 当前 状态 

force = self.force mag if action==1 else -self.force mag 
# 输 入 动作 ， 即 作用 到 车 上 的 力 

costheta = math.cos (theta) ERIZK A 

sintheta = math.sin(theta) # 正 弦 函 数 

# 底 下 是 车 所 的 动力 学 方程 式 ， 即 加 速度 与 动作 之 间 的 关系 

temp = (force + self.polemass length * theta dot * theta dot 

* sintheta) / self.total_mass 


thetaacc = (self.gravity * sintheta - costheta* temp) / 
(self.length * (4.0/3.0 - self.masspole * costheta * costheta / 
self.total mass) ) # 摆 的 角 加 速度 


xacc = temp - self.polemass length * thetaacc * costheta / 
self.total mass = #/) EAP PAIR 

x =x + selfi.tau * x dot 

x dot = x dot + self.tau * xace 

theta = theta + Self tau * theta dot 

theta dot = theta dot + self.tau * thetaacc # 积 分 求 下 一 
步 的 状态 

self.state = (x,x dot,theta,theta dot) 

Mt RMR eth 就 可 以 构建 自己 的 仿真 环境 了 。 我 们 

会 在 第 2 章 向 大 家 展示 一 个 完整 的 基于 gym 的 新 环境 构建 过 程 。 


1.6 本 书 主要 内 容 及 安排 


强化 学 习 是 线性 代数 、 概 率 论 、 运 筹 学 、 优 化 、 信 息 论 等 多 学 科 
交叉 的 一 门 学 科 ， 从 上 个 世纪 九 十 年 代 基 本 理论 体系 形成 后 的 近 二 十 


年 间 ， 发 展 出 了 各 式 各 样 的 强化 学 习 算 法 。 本 书 力求 覆盖 强化 学 习 最 
基本 的 概念 和 算法 ， 因 此 在 写作 过 程 中 遵循 了 两 条 线索 。 第 一 条 线索 
是 强化 学 习 的 基本 算法 ， 第 二 条 线索 是 强化 学 习 算 法 所 用 到 的 基础 知 
He 

我 们 先 介绍 第 一 条 线索 : 强化 学 习 算 法 解决 的 是 序 贯 决策 问题 ， 
而 一 般 的 序 贯 决策 问题 可 以 利用 马尔 科 夫 决策 过 程 的 框架 来 表述 ， 
此 在 第 2 章 中 我 们 介绍 了 马尔 科 夫 决策 过 程 ， 即 MDP。 马 尔 科 夫 决 策 
过 程 能 够 用 数学 的 形式 将 要 解决 的 问题 描述 清楚 ， 这 也 是 为 什么 在 介 
绍 强 化 学 习 时 首先 要 讲 MDP 的 原因 。 

利用 MDP 将 问题 形式 化 后 ， 就 需要 找到 解决 MDP 问 题 的 方法 。 对 
于 模型 已 知 的 MDP 问题 ， 动 态 规划 是 一 个 不 错 的 解 。 因 此 在 第 3 章 我 
们 会 介绍 基于 动态 规划 的 强化 学 习 算法 ， 并 由 此 引出 广义 策略 迭代 的 
方法 。 广 义 策略 迭代 方法 不 仅 适 用 于 基于 模型 的 方法 ， 也 适用 于 无 模 
型 的 方法 ， 是 基于 值 函 数 强化 学 习 算 法 的 基本 框架 。 因 此 ， 第 3 章 是 第 
4 章 基于 蒙特 卡 罗 方 法 、 第 5 章 基于 时 间 差 分 方法 和 第 6 章 基于 值 水 数 逼 
近 方 法 的 基础 。 

无 模型 的 强化 学 习 算 法 是 整个 强化 学 习 算法 的 核心 ， 而 基于 值 函 
数 的 强化 学 习 算 法 的 核心 是 计算 值 永 数 的 期 望 。 值 刺 数 是 个 随机 变 
量 ， 其 期 望 的 计算 可 通过 蒙特 卡 罗 的 方法 得 到 。 因 此 ， 第 4 章 我 们 介绍 
了 基于 蒙特 卡 罗 的 强化 学 习 算 法 。 

基于 蒙特 卡 罗 的 强化 学 习 算 法 通过 蒙特 卡 罗 模 拟 计算 期 望 ， 该 方 
法 需要 等 到 每 次 试验 结束 后 再 对 值 辫 数 进行 估计 ， 收 敛 速 度 慢 。 时 间 
差分 的 方法 则 只 需要 一 步 便 更 新 ， 效 率 高 、 收 敛 速度 快 。 因 此 第 5 章 我 
们 对 时 间 差 分 方法 进行 了 详细 介绍 。 

第 4 章 到 第 5 章 介 绍 的 是 表格 型 强化 学 习 。 所 谓 表格 型 强化 学 习 是 
指 状态 空间 和 动作 空间 都 是 有 限 集 ， 动 作 值 水 数 可 用 一 个 表格 来 描 
述 ， 表 格 的 索引 分 别 为 状态 量 和 动作 量 。 但 是 ， 当 状态 空间 和 动作 空 
间 很 大 ， 甚 至 两 个 空间 都 是 连续 空间 时 ， 动 作 值 孙 数 已 经 无 法 使 用 一 
个 表格 来 描述 ， 这 时 可 以 用 图 数 逼 近 理 论 对 值 函 数 进行 逼近 。 本 书 第 6 
章 详细 介绍 了 基于 值 函 数 逼 近 的 强化 学 习 算 法 。 

强化 学 习 算 法 的 第 二 大 类 是 直接 策略 搜索 方法 。 所 谓 直接 策略 搜 
索 方 法 是 指 将 策略 进行 参数 化 ， 然 后 在 参数 空间 直接 搜索 最 优 策略 。 


直接 策略 搜索 方法 中 ， 最 简单 最 直接 的 方法 是 策略 梯度 的 方法 。 在 第 7 
章 ， 我 们 详细 介绍 了 策略 梯度 理论 。 

基于 策略 梯度 方法 最 具 挑 战 性 的 是 更 新 步 长 的 确定 ， 若 是 更 新 步 
长 太 大 ， 算 法 容易 发 散 ; 更 新 步 长 太 小 ， 收 敛 速度 又 很 慢 。TRPO 的 方 
法 通过 理论 分 析 得 到 单调 非 递 减 的 策略 更 新 方法 。 第 8 章 我 们 对 TRPO 
进行 了 详细 推导 和 介绍 。 

当 动 作 空间 维 数 很 高 时 ， 智 能 体 的 探索 效率 会 很 低 ， 利 用 确定 性 
策略 可 免除 对 动作 空间 的 探索 ， 提 升 算 法 的 收敛 速 度 ， 第 9 章 对 确定 性 
策略 搜索 进行 了 详细 介绍 。 

第 7 章 到 第 9 章 ， 我 们 介绍 的 是 无 模型 的 直接 策略 搜索 方法 。 对 于 
机 器 人 等 复杂 系统 ， 无 模型 的 方法 随机 初始 化 很 难 找到 成 功 的 解 ， 
此 算法 难以 收敛 。 这 时 ， 可 以 利用 传统 控制 器 来 引导 策略 进行 搜索 。 
因此 第 10 章 介 绍 了 基于 引导 策略 搜索 的 强化 学 习 算 法 。 

在 很 多 实际 问题 中 ， 往 往 不 知道 回报 函数 。 为 了 学 习 回 报 函 数 ， 
第 11 章 介 绍 了 逆向 强化 学 习 的 算法 。 

从 第 12 章 开始 ， 我 们 介绍 了 最 近 发 展 出 来 的 强化 学 习 算 法 ， 分 别 
是 第 12 章 的 组 合 策略 梯度 和 值 水 数 方法 ， 第 13 章 的 值 迭 代 网 络 和 第 14 
章 的 PILCO 方 法 及 其 扩展 。 

第 二 条 线索 是 强化 学 习 算法 所 用 到 的 基础 知识 。 

我 们 在 第 2 章 介 绍 了 概率 学 基础 。 强 化 学 习 中 最 重要 的 概念 是 随机 
策略 ， 因 此 在 介绍 概率 学 基础 之 后 ， 对 随机 策略 的 基本 概念 进行 了 详 
细 讲 解 。 

当 模 型 已 知 时 ， 值 函数 的 求解 可 以 转化 为 线性 方程 组 的 求解 。 在 
第 3 章 ， 我 们 介绍 了 线性 方程 组 的 数值 求解 方法 高 斯 - 赛 德尔 迭代 
法 ， 并 利用 时 变 与 泛 国 分 析 中 的 压缩 映射 证 明了 算法 的 收敛 性 。 

在 强化 学 习 算 法 中 ， 值 函数 是 累积 回报 的 期 望 。 利 用 采样 数据 计 
算 期 望 是 统计 学 讨论 的 主题 。 统 计 学 中 的 重要 技术 ， 如 重要 性 采样 、 
拒绝 性 采样 和 MCMC 方法 都 可 用 于 强化 学 习 算 法 中 。 我 们 在 第 4 章 介 
绍 了 这 些 基础 知识 。 

在 基于 函数 逼近 的 强化 学 习 中 ， 不 同 的 图 数 吾 近 方 法 被 应 用 到 强 
化 学 习 算 法 中 。 我 们 在 第 6 章 介 绍 了 基本 的 函数 逼近 方法 : 基于 非 参 数 


的 国 数 逼近 和 基于 参数 的 鲜 数 逼近 。 在 基于 参数 的 函数 逼近 中 ， 我 们 
重点 介绍 了 神经 网 络 ， 尤 其 是 卷 积 神经 网 络 ， 因 为 卷 积 神经 网 络 是 
DQN 及 其 变种 算法 的 基础 。 

在 TRPO 中 ， 替 代目 标 邹 数 用 到 了 信息 论 的 燃 和 相对 炳 的 概念 ， 后 
时 TRPO 的 求解 需要 用 到 各 种 优化 算法 ， 因 此 在 第 8 章 我 们 介绍 了 基本 
的 信息 论 概念 和 基本 的 优化 方法 。 

引导 策略 搜索 强化 学 习 的 优化 目标 用 到 了 KL 散 度 和 变 分 推理 ， 以 
及 大 型 的 并 行 优化 算法 ， 因 此 ， 我 们 在 第 10 章 介绍 了 大 型 监督 算法 常 
用 的 LBFGS 优 化 算法 ， 及 其 学 习 中 的 并 行 优化 算法 ADMM 算 法 和 KL 散 
度 及 变 分 推理 。 

读者 在 阅读 本 书 时 ， 可 依照 章节 顺序 阅读 。 在 遇 到 相关 概念 时 可 
先 阅读 该 章节 的 数学 知识 ， 通 过 数学 知识 帮助 理解 强化 学 习 的 内 容 。 


第 一 篇 强化 学 习 基础 


2 马尔 科 夫 决策 过 程 
2.1 马尔 科 夫 决策 过 程 理论 讲解 


图 2.1 解 释 了 强化 学 习 的 基本 原理 。 智 能 体 在 完成 某 项 任务 时 ， 首 
先 通 过 动作 A 与 周围 环境 进行 交互 ， 在 动作 A 和 环境 的 作用 下 ， 智 能 体 
会 产生 新 的 状态 ， 同 时 环境 会 给 出 一 个 立即 回报 。 如 此 循环 下 去 ， 智 
能 体 与 环境 不 断 地 交互 从 而 产生 很 多 数据 。 强 化 学 习 算 法 利用 产生 的 
数据 修改 自身 的 动作 策略 ， 再 与 环境 交互 ， 产 生 新 的 数据 ， 并 利用 新 
的 数据 进一步 改善 自身 的 行为 ， 经 过 数 次 迭代 学 习 后 ， 智 能 体能 最 终 
学 到 完成 相应 任务 的 最 优 动作 (最 优 策 略 ) 。 


智能 体 观 新 

E 测 的 
an A 次 
R S 


WRASSE ISR P (Strl S a) 

图 2.1 强化 学 习 基 本 框架 
从 强化 学 习 的 基本 原理 能 看 出 它 与 其 他 机 器 学 习 算法 如 监督 学 习 
和 非 监督 学 习 的 一 些 基 本 差别 。 在 监督 学 习 和 非 监督 学 习 中 ， 数 据 是 
静态 的 、 不 需要 与 环境 进行 交互 ， 比 如 图 像 识 别 ， 只 要 给 出 足够 的 差 
异样 本 ， 将 数据 输入 深度 网 络 中 进行 训练 即 可 。 然 而 ， 强 化 学 习 的 学 
习 过 程 是 动态 的 、 不 断交 互 的 过 程 ， 所 需要 的 数据 也 是 通过 与 环境 不 
断交 互 所 产生 的 。 所 以 ， 与 监督 学 习 和 非 监 督学 习 相 比 ， 强 化 学 习 涉 
及 的 对 象 更 多 ， 比 如 动作 ， 环 境 ， 状 态 转移 概率 和 回报 函数 等 。 强 化 
学 习 更 像 是 人 的 学 习 过 程 : 人 类 通过 与 周围 环境 交互 ， 学 会 了 走路 ， 
奔跑 ， 劳 动 ， 人 类 与 大 自然 ， 与 宇宙 的 交互 创造 了 现代 文明 。 另 外 ， 
深度 学 习 如 图 像 识 别 和 语音 识别 解决 的 是 感知 的 问题 ， 强 化 学 习 解 决 
的 是 决策 的 问题 。 人 工 智 能 的 终极 目的 是 通过 感知 进行 智能 决策 。 所 


以 ， 将 近年 发 展 起 来 的 深度 学 习 技术 与 强化 学 习 算法 结合 而 产生 的 深 
度 强 化 学 习 算法 是 人 类 实现 人 工 智 能 终极 目的 的 一 个 很 有 前 景 的 方 
法 。 

无 数学 者 们 通过 几 十 年 不 断 地 努力 和 探索 ， 提 出 了 一 套 可 以 解决 
大 部 分 强化 学 习 问 题 的 框架 ， 这 个 框架 就 是 马尔 科 夫 决策 过 程 ， 简 称 
MDP。 下 面 我 们 会 循序 渐进 地 介绍 马尔 科 夫 决策 过 程 : 先 介绍 马 尔 科 
夫 性 ， 再 介绍 马尔 科 夫 过 程 ， 最 后 介绍 马尔 科 夫 决策 过 程 。 
1. 第 一 个 概念 是 马尔 科 夫 性 
所 谓 马尔 科 夫 性 是 指 系 统 的 下 一 个 状态 st+1 仅 与 当前 状态 st 有 
而 与 以 前 的 状态 无 关 。 
EM: 状态 st 是 马尔 科 夫 的 ， 当 且 仅 当 P[stt1 [st ]=P[st41 |s1 
，...，St]。 

定义 中 可 以 看 到 ， 当 前 状态 st 其 实 是 缠 含 了 所 有 相关 的 历史 信息 s1 
，..….，St ， 一 旦 当前 状态 已 知 ， 历 史 信 息 将 会 被 抛弃 。 

马尔 科 夫 性 描述 的 是 每 个 状态 的 性 质 ， 但 真正 有 用 的 是 如 何 描述 
一 个 状态 序列 。 数 学 中 用 来 描述 随机 变量 序列 的 学 科 叫 随机 过 程 。 所 
谓 随机 过 程 就 是 指 随机 变量 序列 。 若 随机 变量 序列 中 的 每 个 状态 都 是 
马尔 科 夫 的 ， 则 称 此 随机 过 程 为 马尔 科 夫 随机 过 程 。 

2. 第 二 个 概念 是 马尔 科 夫 过 程 

马尔 科 夫 过 程 的 定义 : 马尔 科 夫 过 程 是 一 个 二 元 组 (S, P) ， 且 
满足 : S 是 有 限 状 态 集合 ，P 是 状态 转移 概率 。 状 态 转移 概率 和 矩阵 为 : 
Bi Bn 


at 


P= : | 。 下 面 我 们 以 一 个 例子 来 进行 曾 述 。 


Pa vee Ern 


如 图 2.2 所 示 为 一 个 学 生 的 7 种 状态 {娱乐 ， 课 程 1， 课 程 2， 课 程 3， 
考 过 ， 有 睡觉 ， 论 文 }， 每 种 状态 之 间 的 转换 概率 如 图 所 示 。 则 该 生 从 课 
程 1 开始 一 天 可 能 的 状态 序列 为 : 

课 1- 课 2- 课 3- 考 过 -睡觉 

课 1- 课 2- 睡 觉 


以 上 状态 序列 称 为 马尔 科 夫 链 。 当 给 定 状态 转移 概率 时 ， 从 某 个 
状态 出 发 存在 多 条 马尔 科 夫 链 。 对 于 游戏 或 者 机 器 人 ， 马 尔 科 夫 过 程 
不 足以 描述 其 特点 ， 因 为 不 管 是 游戏 还 是 机 器 人 ， 他 们 都 是 通过 动作 
与 环境 进行 交互 ， 并 从 环境 中 获得 奖励 ， 而 马尔 科 夫 过 程 中 不 存在 动 
作 和 奖励 。 将 动作 (策略 ) 和 回报 考虑 在 内 的 马尔 科 夫 过 程 称 为 马尔 
科 夫 决策 过 程 。 


图 2.2 马尔 科 夫 过 程 示例 图 

3. 第 三 个 概念 是 马尔 科 夫 决策 过 程 

马尔 科 夫 决策 过 程 由 元 组 (S$，A，P，R，y) 描述 ， 其 中 : 

S 为 有 限 的 状态 集 

A 为 有 限 的 动作 集 

P 为 状态 转移 概率 

R 为 回报 函数 

y 为 折扣 因子 ， 用 来 计算 累积 回报 。 

注意 ， 跟 马尔 科 夫 过 程 不 同 的 是 ， 马 尔 科 夫 决策 过 程 的 状态 转移 
概率 是 包含 动作 的 ， 即 Pe = P[S =s'|S, =s,4 =a]。 


举 个 例子 如 图 2.3 所 示 。 


图 2.3 马尔 科 夫 决策 过 程 示例 图 
图 2.3 为 马尔 科 夫 决策 过 程 的 示例 图 ， 图 2.3 与 图 2.2 对 应 。 在 图 2.3 
中 ， 学 生 有 五 个 状态 ， 状 态 集 为 S={s1 ，s? ，s3 ，s4 ，s5 }， 动 作 集 为 
A={ 玩 ， 退 出 ， 学 习 ， 发 表 ， 睡 觉 } ， 在 图 2.3 中 立即 回报 用 R 标 记 。 
强化 学 习 的 目标 是 给 定 一 个 马尔 科 夫 决策 过 程 ， 寻 找 最 优 策略 。 
所 谓 策 略 是 指 状态 到 动作 的 映射 ， 策 略 常用 符号 r 表 示 ， 它 是 指 给 定 状 
态 s 时 ， 动 作 集 上 的 一 个 分 布 ， 即 


a(a|s)=p|A, =a|S, =s] (2.1) 


这 个 公式 是 什么 意思 呢 ? 策略 的 定义 是 用 条 件 概 率 分 布 给 出 的 。 
我 相信 ， 一 涉及 概率 公式 ， 大 部 分 人 都 会 心里 咯 哈 一 下 ， 排 斥 之 情 油 
然而 生 。 但 是 ， 要 想 完全 掌握 强化 学 习 这 门 工 具 ， 概 率 公 式 必 不 可 
少 。 只 有 掌握 了 概率 公式 ， 才 能 真正 领会 强化 学 习 的 精髓 。 关 于 概率 
的 知识 看 本 章 第 二 节 。 

简单 解释 下 概率 在 强化 学 习 中 的 重要 作用 。 首 先 ， 强 化 学 习 的 策 
略 往往 是 随机 策略 。 采 用 随机 策略 的 好 处 是 可 以 将 探索 耦合 到 采样 的 
过 程 中 。 所 谓 探索 是 指 机 器 人 尝试 其 他 的 动作 以 便 找到 更 好 的 策略 。 
其 次 ， 在 实际 应 用 中 ， 存 在 各 种 噪声 ， 这 些 噪 声 大 都 服从 正 态 分 布 ， 
如 何 去 掉 这 些 噪声 也 需要 用 到 概率 的 知识 。 

言 归 正 传 ， 公 式 (2.1) 的 含义 是 : 策略 r 在 每 个 状态 s 指 定 一 个 动 
作 概 率 。 如 果 给 出 的 策略 nn 是 确定 性 的 ， 那 么 策略 nt 在 每 个 状态 s 指 定 一 


个 确定 的 动作 。 
例如 其 中 一 个 学 生 的 策略 为 r1 ( 玩 |s1 ) =0.8， 是 指 该 学 生 在 状态 
s1 时 玩 的 概率 为 0.8， 不 玩 的 概率 是 0.2， 显 然 这 个 学 生 更 喜欢 玩 。 
另外 一 个 学 生 的 策略 为 rz? ( 玩 |s1 ) =0.3， 是 指 该 学 生 在 状态 s1 时 
玩 的 概率 是 0.3， 显 然 这 个 学 生 不 爱 玩 。 依 此 类 推 ， 每 个 学 生 都 有 自己 
强化 学 习 是 找到 最 优 的 策略 ， 这 里 的 最 优 是 指 得 到 的 总 回报 
取 人 o 
当 给 定 一 个 策略 xn 时， 我 们 就 可 以 计算 累积 回报 了 。 首 先 定义 累积 
回报 : 


G; = Ra +yRu2 tees Dt litt (2.2) 


当 给 定 策略 r 时 ， 假 设 从 状态 s1 出 发 ， 学 生 状 态 序列 可 能 为 
S| > S2 一 > S3 > S4 > S5 
‘ 一 > S2 一 >$3 > S5 


此 时 ， 在 策略 r 下 ， 利用 (2.2) 式 可 以 计算 累积 回报 G1 ， 此 时 G1 
有 多 个 可 能 值 。 由 于 策略 r 是 随机 的 ， 因 此 累积 回报 也 是 随机 的 。 为 了 
评价 状态 1 的 价值 ， 我 们 需要 定义 一 个 确定 量 来 描述 状态 s1 的 价值 ， 
Did a 的 价值 。 然 而 ， 累 积 回 报 
G1 是 个 随机 变量 ， 不 是 一 个 确定 值 ， 因 此 无 法 描述 ， 但 其 期 望 是 个 确 
定 值 ， A IS EENE 

(1) 状态 值 函 数 。 

当 智 能 体 采 用 策略 r 时 ， 累 积 回报 服从 一 个 分 布 ， 累 积 回报 在 状态 

s 处 的 期 望 值 定义 为 状态 - 值 函数 : 


Dz (s)=E, bas |S; =s (2.3) 
k=0 


注意 : ASHAMED RRM, MEAA RBM RE T R 
只 回报 G 的 状态 分 布 。 


A24¢5E8 2.30 NRa BRE. SPS ORB PNA 
AKA FABRE. BP: vq (s1) =-2.3, vq (s2) =1.3, vq (s3) 
=2.7; 0, (s4) TAr ur (55) =0 


nx(als) =0.5,y =1 0.2 


图 2.4 状态 值 函 数 示意 图 


相应 地 ， 状 态 -行为 值 函 数 为 


dx (s,a)=E, ba |S; =s, A, =| (2.4) 


k=0 

(2.3) 式 和 (2.4) 式 分 别 给 出 了 状态 值 遂 数 和 状态 -行为 值 水 数 的 
定义 计算 式 ， 但 在 实际 真正 计算 和 编程 的 时 候 并 不 会 按照 定义 式 编 
程 。 接 下 来 我 们 会 从 不 同 的 方面 对 定义 式 进行 解读 。 

(2) 状态 值 遂 数 与 状态 -行为 值 遂 数 的 贝尔 曼 方 程 。 

由 状态 值 遂 数 的 定义 式 (2.3) 可 以 得 到 : 

v(s)=£[G, |S; =s] 

= E| Ris FYR tS; =] 

= E| Ron +y (Ria + 7Reva +++) | Sp =s | (2.5) 

= 五 | Ra + 7Gis1 | Sy = s| 

= E| Russ + yv(Si1) |S; = s] 


(2.5) 式 最 后 一 个 等 号 的 证 明 : 


tI St+13" 


= E, (R(t +1) +4E,,,,,- (G (Si+1))) 
=E, (R@+1) + W(Si41)) 
= E(R(t+1) + W(S;41)) 
这 里 需要 注意 的 是 对 哪些 变量 求 期 望 。 
同样 我 们 可 以 得 到 状态 -动作 值 永 数 的 贝尔 曼 方 程 : 
qz (8,4) = Er | Res +74 (Siis Art) |S) = 8,4 =a | (2.6) 


TRAY (BRE 5 状态 -4 TARR 的 具体 推导 过 程 如 下 。 
图 2.5 和 图 2.6 分 别 为 状态 值 汶 数 和 行为 值 永 数 的 具体 计算 过 程 。 其 
中 空心 圆圈 表示 状态 ， 实 心 圆圈 表示 状态 -行为 对 。 


qalsa) — s,a 
e A 


In(S,a) = s,a 


Un(s') es 


A B 5 
图 2.5 ASEARA HETRE] 
图 2.5 为 值 图 数 的 计算 分 解 示意 图 ， 图 2.5B 计 算 公 式 为 
Dz (s)\= > 7x(a|s)gr (s,a) (2.7) 


acA 


E2.5B ETRS ARAS5S RS-A ARAARA. E25 
状态 -行为 值 函 数 为 


qz (s,a)= R? hp (s’) (2.8) 
将 (2.8) 式 代 入 (2.7) 式 可 以 得 到 : 
区 (国共 > 元 (ls) Re +7 Pies ) (2.9 ) 


acA 


dn(S,a) sa 


图 2.6 ASATA BARE 


在 2.6C 中 ， 

a LA (2.10) 
将 > 10) RA (2.8) 中 ， 得 到 状态 -行为 值 遂 数 : 
qz 人 a)=RE+7) Pe pea |s')gx(s',a') (2.11) 


公式 (2.9) 可 以 在 图 2.4 中 进行 验证 。 选 择 状 态 s4 处 。 由 图 2.4 知 
Iv (sq) =7.4， 由 公式 (2.9) 得 


v(s4)=0.5*(1+0.2*(-1.3)+0.4*2.7 +0.4*7.4)+0.5*10 =7.39 


保留 一 位 小 数 为 7.4。 

计算 状态 值 水 数 的 目的 是 为 了 构建 学 习 算 法 从 数据 中 得 到 最 优 策 
略 。 每 个 策略 对 应 着 一 个 状态 值 函 数 ， 最 优 策略 目 然 对 应 着 最 优 状态 
(ARZ 


定义 : 最 优 状态 值 函数 u” (s) 为 在 所 有 策略 中 值 最 大 的 值 函数 ， 
即 2 (5)=max vx (s) ， 最 优 状态 -行为 值 函数 q (s, a) 为 在 所 有 策 
略 中 最 大 的 状态 -行为 值 轴 数 ， 即 
9 (s,a)= max qz (s,a) 


我 们 由 (2.9) RA (2.11) AASB RAK RRA RK 
S-TA RRN RERA E: 


v*(s)=max R$ +7 2 Psw’ (s') (2.12) 
sieS 
q*(s,a)= R! +y}, Po maxa gq" (s',a') (2.13) 
s'eS 


若 已 知 最 优 状态 -动作 值 函数 ， 最 优 策略 可 通过 直接 最 大 化 qd 
(s, a) 来 决定 。 
1 if a=argmaxq-(s,a 
TE e (2.14) 
0 otherwise 


UE. 7 ARARAS EAA, EA ERARI 
为 最 优 策略 。 


图 2.7 最 优 值 函 数 和 最 优 策略 


至 此 ， 我 们 将 强化 学 习 的 基本 理论 即 马尔 科 夫 决策 过 程 介 绍 完 
毕 。 现 在 该 对 强化 学 习 算法 进行 形式 化 描述 了 。 

我 们 定义 一 个 离散 时 间 有 限 范围 的 折扣 马尔 科 夫 决策 过 程 M= 
(S, A, P, r, pg, yo T) ， 其 中 $ 为 状态 集 ，A 为 动作 集 ，P: 
SxAxS 一 R 是 转移 概率 ，r: SxA 一 [-Rmax ，Rmax ] 为 立即 回报 函数 ， 
po: S 一 R 是 初始 状态 分 布 ，yeE[0，1] 为 折扣 因子 ，T 为 水 平 范 围 (其 
实 就 是 步 数 ) 。1 为 一 个 轨迹 序列 ,好 t= (so, ag» s1, aps...) ， 


T 
累积 回报 为 R= 》,y'7 ， 强 化 学 习 的 目标 是 找到 最 优 策略 xr， 使 得 该 策 


t=0 


略 下 的 累积 回报 期 望 最 大 ， 即 max | R(T)pr (7)dr， 


2.2 MDP 中 的 概率 学 基础 讲解 


本 节 解 释 公 式 (2.1) 随机 策略 的 定义 。 在 强化 学 习 算 法 中 ， 随 机 
策略 得 到 广泛 应 用 ， 因 为 随机 策略 耦合 了 探索 。 后 面 要 介绍 的 很 多 强 
化 学 习 算 法 的 策略 都 采用 随机 策略 ， 所 以 ， 很 有 必要 理解 什么 是 随机 
策略 。 随 机 策略 常用 符号 表示 ， 它 是 指 给 定 状态 s 时 动作 集 上 的 一 个 
分 布 。 要 理解 分 布 首先 要 理解 随机 变量 [2] 。 

(1) 随机 变量 。 

随机 变量 是 指 可 以 随机 地 取 不 同 值 的 变量 ， 常 用 小 写字 母 表示 。 
在 MDP 中 随机 变量 指 的 是 当前 的 动作 ， 用 字母 " 表示 。 在 图 2.3 的 例子 
中 ， 随 机 变量 4 可 取 的 值 为 < 玩 " “SRW. “ORS, <BR ABET”, 
随机 变量 可 以 是 离散 的 也 可 以 是 非 离散 的 ， 在 该 例子 中 随机 变量 是 离 
散 的 。 有 了 随机 变量 ， 我 们 就 可 以 描述 概率 分 布 了 。 

(2) 概率 分 布 。 


概率 分 布 用 来 描述 随机 变量 在 每 个 可 能 取 到 的 值 处 的 可 能 性 大 
小 。 离 散 型 随机 变 Ta 即 随机 变 
量 在 离散 点 处 的 概率 。 连 续 型 随机 变量 的 概率 分 布 则 用 概率 密度 函数 
来 描述 。 在 图 2.3 的 例子 中 ， 指定 一 个 策略 7 就 是 指定 取 每 个 动作 的 
概率 。 

(3) 条 件 概率 。 

策略 r (als) 是 条 件 概率 。 条 件 概率 是 指 在 其 他 事件 发 生 时 ， 我 们 
所 关心 的 事件 所 发 生 的 概率 。 在 我 们 的 例子 中 r (als) 是 指 在 当前 状态 
处 ， 采 取 某 个 动作 4 的 概率 。 当 给 定 随 机 变量 后 ， 状 态 s 处 的 累积 回报 


G(s) 也 是 随机 变量 ， 而 且 其 分 布 由 随机 策略 7 决定。 状态 值 函数 定 
义 为 该 累积 回报 的 期 望 。 下 面 我们 再 看 看 期 望 和 方差 的 概念 。 

(4) 期 望 和 方差 。 

RAS) 关于 某 分 布 P(z) 的 期 望 是 指 ， 当 x 由 分 布 P(z) 产生 、 
f 作用 于 ZX 时 ， f) 的 平均 值 。 对 于 离散 型 随机 变量 ， 期 望 公式 为 


elf (2)] =) POE) 


对 于 连续 型 随机 变量 ， 期 望 通过 积分 求 得 


E,p[f (7x)] = J p(x) f(x)dx 
期 望 的 运算 是 线性 的 ， 即 
E,laf(z) + 89(2)] =aE,[f(z)] + BE- [g(2)] 
期 望 的 线性 运算 在 后 面 的 很 多 推导 中 都 会 用 到 
(5) 方差 。 


方差 是 衡量 利用 当前 概率 分 布 采样 时 ， 采 样 值 差异 的 大 小 ， 可 用 
如 下 公式 得 到 : 


Var (f (x)) = E| (f (£) — E[f(@)])*] 

从 定义 我 们 可 以 看 到 ， 方差 越 小 ， 采 样 值 离 均值 越 近 ， 不 确定 性 
越 小 。 尤 其 是 方差 很 小 时 ， 采 样 值 都 集中 在 均值 附近 ， 因 此 不 确定 性 
很 小 (这 时 ， 你 猜测 采样 值 是 均值 ， 那 么 该 猪 测 离 实际 采样 点 很 
近 ) 。 方 差 的 平方 根 被 称 为 标准 差 。 有 了 均值 和 方差 ,我 们 现在 就 可 
以 谈 一 谈 在 强化 学 习 中 最 常用 的 概率 分 布 了 。 

最 常用 的 概率 分 布 也 就 是 最 常用 的 随机 策略 。 

(1) 贪 梦 策 略 。 
1 if a=argmax q«(s,a) 
m(a|s)= acA 
0 otherwise 

a Re MAEM RE, SDRAMs (s, 

a) 最 大 的 动作 处 取 概 率 1， 选 其 他 动作 的 概率 为 0。 
(2) s-greedy 策 略 。 


下 if a=argmax,Q(s,a) 
n (als) <— ae) 

Lol if a#argmax,Q(s,a) 
-greedy 策 略 是 强化 学 习 最 基本 最 常用 随机 策略 。 其 含义 是 选取 使 


得 动作 值 函数 最 大 的 动作 的 概率 为 1 一 < 十 IO ， 而 其 他 动作 的 概 


率 为 等 概率 ， 都 为 [15 | 。e-greedy 平 衡 了 利用 (exploitation) 和 探索 


(exploration) ， 其 中 选取 动作 值 函 数 最 大 的 部 分 为 利用 ， 其 他 非 最 优 
动作 仍 有 概率 为 探索 部 分 。 
(3) 高 斯 策略 。 


一 般 高 斯 策略 可 以 写成 re 三 1 十 s,s~N(0,a”) HA h 为 确定 
性 部 分 ，& 为 零 均 值 的 高 斯 随机 噪声 。 高 斯 策略 也 平衡 了 利用 和 探 


索 ， 其 中 利用 由 确定 性 部 分 完成 ， 探 索 由 完成 。 高 斯 策略 在 连续 系 
统 的 强化 学 习 中 应 用 广泛 。 

(4) 玻 尔 兹 曼 分 布 。 

对 于 动作 空间 是 是 离散 的 或 者 动作 空间 并 不 大 的 情况 ， 可 采用 玻 
尔 兹 曼 分 布 作为 随机 策略 ， 即 
exp (Q(s,a,0) ) 
bp exp (h(s,b,0)) 

其 中 Q(s,a,9) 为 动作 值 函 数 。 该 策略 的 含义 是 ， 动 作 值 函 数 大 的 
动作 被 选中 的 概率 大 ， 动 作 值 永 数 小 的 动作 被 选中 的 概率 小 。 


2.3 基于 gym 的 MDP 实 例 讲 解 


本 节 我 们 以 机 器 人 找 金 币 为 例子 ， 构 建 其 MDP 框 染 。 

如 图 2.8 所 示 为 机 器 人 找 金 币 的 例子 。 该 网 格 世 界 一 共 8 个 状态 ， 其 
中 状态 6 和 状态 8 是 死亡 区 域 ， 状 态 7 是 金币 区 域 。 机 器 人 的 初始 位 置 为 
网 格 世界 中 的 任意 一 个 状态 ， 机 器 人 从 初始 状态 出 发 寻找 金币 ， 机 器 
人 每 探索 一 次 ， 进 入 死亡 区 域 或 找到 金币 ， 本 次 探索 结束 。 


1121314|5| 
o 
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图 2.8 机 器 人 找 金币 
在 2.1 节 我 们 已 经 定义 了 一 个 马尔 科 夫 决策 过 程 。 我 们 知道 马尔 科 
夫 决 策 过 程 由 元 组 (5, 4,P,RR,Y) 来 描述 。 下 面 我 们 将 机 器 人 找 金 币 的 
例子 建 模 为 MDP。 


状态 空间 S= {1,2,3,4,5,6,7,8) ; 动作 空间 
4 三 《 东 ， 南 ， 西 ， 北 》 ; 状态 转移 概率 为 机 器 人 的 运动 方程 ， 回 报 函 


T(als;0) = 


QA: 找到 金币 的 回报 为 1， 进 入 死亡 区 域 的 回报 为 -1， 机 器 人 在 状态 
1~ 人 5 之 间 转 换 时 ， 回 报 为 0。 

下 面 ， 我 们 基于 gym 构 建 机 器 人 找 金币 的 gym 环 境 。 

一 个 gym 的 环境 文件 ， 其 主体 是 个 类 ， 在 这 里 我 们 定义 类 名 为 : 
GridEnv ， 其 初始 化 为 环境 的 基本 参数 ， 该 部 分 代码 在 
https : //github.com/gxnk/reinforcement-learning-code 的 grid_mdp.py 文 件 
中 。 我 们 先 看 下 源 代码 。 


状态 空间 : 


self.states = [1,2,3,4,5,6,7,8] 
动作 空间 
self.actions = ['n','e','s','w'] 
回报 函数 : 
self.rewards = dict(); # 回报 的 数据 结构 为 字典 
self.rewards['1 s'] = -1.0 
self.rewards['3_s'] = 1.0 
sélf .rewards["3 s1] = =1..0 
状态 转移 概率 : 
self.t = dict(); # 状 态 转 移 的 数据 格式 为 字典 
self.t['i_s'] = 6 
self.t['1 e'] = 2 
self.t['2 w'] = 1 
self.t['2 e'] = 3 
self. t[ "3s" ] -= 7 
self.t['3_w'] = 2 
self.t['3_e'] = 4 
selt t [18 w] = 3 
self.t['4 e'] =5 
aren Uae = 8 
self.t['5 w'] = 4 


有 了 状态 空间 、 动 作 空 间 和 状态 转移 概率 ， 我 们 便 可 以 写 step 
(a) 函数 了 。 这 里 特别 要 注意 的 是 ，step () 函数 的 输入 是 动作 ， 输 


ak 


Ç 


出 是 下 一 个 时 刻 的 动作 、 回 报 、 是 否 终 止 和 调试 信息 。 尤 其 需要 注 ; 
gd TOE ， 但 不 能 缺少 
Ai, BAORAS. RE PRS. 
def step(self, action): 

# 系 统 当前 状态 

state = self.state 

# 判 断 系统 当前 状态 是 否 为 终止 状态 

LE state iñ self.terminate states: 

return state, 0, True, {} 

key = "%d_%s"% (state, action) # 将 状态 和 动作 组 成 字典 的 键 值 

# 状 态 转移 

if key in self.t: 


N 


R 


next state = self.t[key] 


else: 

next state = state 
self.state = next_state 
is_terminal = False 


if next. state in self.terminate states: 
is_terminal = True 
if key not in self.rewards: 


r = 0.0 
else: 
r = self.rewards[key] 


return next state, r,is terminal, {} 


step ) 国 数 就 是 这 么 简单 。 下 面 我 们 重点 介绍 如 何 写 render () 
函数 。 从 图 2.8 机 器 人 找 金 币 的 示意 图 我 们 可 以 看 到 ， e Aiea 
teip ERAS. FAC, iTA rendering F HERRAR NA 
些 图 像 。 

整个 图 像 是 一 个 600x400 的 窗口 ， 可 用 如 下 代码 实现 : 
from gym.envs.classic control import rendering 


self.viewer = rendering.Viewer (screen width, screen height) 


创建 网 格 世界 ， 一 共 包 括 11 条 直线 ， 事 先 算 好 每 条 直线 的 起 点 和 
终点 坐标 ， 然 后 绘制 这 些 直 线 ， 代 码 如 下 : 


# 创 建 网 格 世 界 

self.linel = rendering.Line((100,300), (500,300)) 
self.line2 = rendering.Line((100, 200), (500, 200)) 
self.line3 = rendering.Line((100, 300), (100, 100)) 
self.line4 = rendering.Line((180, 300), (180, 100)) 
self.line5S = rendering.Line((260, 300), (260, 100)) 
self.line6 = rendering.Line((340, 300), (340, 100) ) 
self.line7 = rendering.Line((420, 300), (420, 100) ) 
self.line8 = rendering.Line((500, 300), (500, 100) ) 
self.line9 = rendering.Line((100, 100), (180, 100)) 
self.linelO = rendering.Line((260, 100), (340, 100)) 


self.linell = rendering.Line((420, 100), (500, 100)) 


接 下 来 创建 死亡 区 域 ， 我 们 用 黑色 实心 圆 代 表 死 亡 区 域 ， 源 代码 
如 下 : 


# 创 建 第 一 个 出 骨 

self.kulol = rendering.make circle(40) 

self.circletrans = rendering.Transform(translation=(140,150)) 
self.kulol.add attr (self.circletrans) 

Self. KULOl. Set color (0,0,0) 

# 创 建 第 二 个 骨 授 

self.kulo2 = rendering.make circle(40) 

self.circletrans = rendering.Transform(translation=(460, 150)) 
self.kulo2.add attr (self.circletrans) 

self.kulo2.set color(0, 0, 0) 


创建 金币 区 域 ， 用 浅 色 的 圆圈 来 表示 : 
# 创 建 金币 


self.gold = rendering.make circle(40) 


self.circletrans = rendering.Transform(translation=(300, 150)) 
self.gold.add attr (self.circletrans) 
self.gold.set color(1l, 0.9, 0) 


创建 机 器 人 ， 我 们 依然 用 圆 来 表示 机 器 人 ， 为 了 跟 死 亡 区 域 和 金 
币 区 域 不 同 ， 我 们 可 以 设置 不 同 的 颜色 : 
# 创 建 机 器 人 
self.robot= rendering.make circle(30) 
self.robotrans = rendering.Transform() 
self.robot.add attr(self.robotrans) 
self.robot.set color(0.8, 0.6, 0.4) 


创建 完 之 后 ， 给 11 条 直线 设置 颜色 ， 并 将 这 些 创建 的 对 象 添加 到 
几何 中 ， 代 码 如 下 : 


self. Linel. get color(0p 0p 0) 
self. liez. SG Goler(0, 0, 0) 
self.line3.set color(0,;, 0, 0) 
selt.line4.set color(0, O, U) 
self. LINES. Set Color(0; Oy 0) 
šelf. lines..sét celor(0, O, 0) 
self.liney.set ceolor(0, 0, 0) 
seltslines.set color(0y Og U) 
gelf. LINES. Set color(0; Os Q) 
self. Linel0.set 66ler(0, 0, 0) 
self. Linell sset color(0,;, 0, 0) 


self.viewer.add geom (self.linel1 
selt.viewer.add geom (self.line2 
self. viewer. -ada geom (self. lines 
self.viewer.add geom(self.line4 


self.viewer.add geom(self.lines 


4 


self.viewer.add geom(self.linet 


) 
) 
) 
) 
selt.viewer.add geom(self. lines) 
) 
) 
) 
self.viewer.add_geom(self.line9) 


( 
( 
( 
( 
( 
self. viewer.add geom (self. line? 
( 
( 
self.viewer.add geom (self.line10) 
( 


self. Viewer.add geom (self .lainel1) 


self.viewer.add_geom(self.kulol) 
self.viewer.add_ geom(self.kulo2) 
self.viewer.add_geom(self.gold) 
self.viewer.add_geom(self.robot) 

接 下 来 ， 开 始 设置 机 器 人 的 位 置 。 机 器 人 的 位 置 根据 其 当前 所 处 
的 状态 不 同 ， 所 在 的 位 置 也 不 同 。 我 们 事先 计算 出 每 个 状态 点 机 器 人 
位 置 的 中 心 坐 标 ， 并 存储 到 两 个 向 量 中 ， 在 类 初始 化 中 给 出 : 

self.x=[140,220,300,380,460,140,300,460] 
selt,y=[250,250,250, 250,250,150 ,150,150} 

根据 这 两 个 向 量 和 机 器 人 当前 的 状态 ， 我 们 就 可 以 设置 机 器 人 当 
前 的 圆心 坐标 了 ， 即 

if self.state is None: return None 

self.robotrans.set translation(self.x[self.state-1], 
self.y[self.state- 1]) 

最 后 还 需要 一 个 返回 语句 : 
return self.viewer.render(return_rgb array=mode == 'rgb array') 

以 上 便 完成 了 render () 函数 的 建立 。 

下 面 我 们 再 看 一 下 reset () AAIE Z. 

reset () 遂 数 常常 用 随机 的 方法 初始 化 机 器 人 的 状态 ， 即 

def reset (self): 

self.state = self.states [int (random. random () * 
len(self.states) ) ] 
return self.state 

全 部 的 代码 可 以 上 github 下 载 学 习 。 下 面 重点 讲 一 讲 如 何 注册 建 好 
的 环境 ， 以 便 通 过 gym 的 标准 形式 进行 调用 。 其 实 环境 的 注册 很 简单 ， 
只 需要 三 步 ， 分 述 如 下 。 

第 一 步 ， 将 我 们 自己 的 环境 文件 (笔者 创建 的 文件 名 为 
grid_mdp.py) 拷贝 到 你 的 gym 安 装 目 录 /gym/gym/envs/classic_control 文 
件 夹 中 (拷贝 在 此 文件 夹 中 是 因为 要 使 用 rendering 模 块 。 当 然 本 方法 并 
不 是 唯一 的 ， 也 可 以 采用 其 他 办 法 。 ) o 


第 二 步 ， 打 开 该 文件 夹 ( 第 一 步 中 的 文件 夹 ) 下 的 init .py 文 
件 ， 在 文件 未 尾 加 入 语句 : 


from gym.envs.classic control.grid mdp import GridEnv 


第 三 步 ， 进 入 文件 夹 的 gym 安 装 目录 /gym/gym/envs， 打 开 该 文件 
KFA init .py 文件 ， 添 加 代码 : 
register ( 
id='GridWorld-v0O', 
entry point='gym.envs.classic control:GridEnv', 
max episode steps=200, 
reward threshold=100.0, 


第 一 个 参数 id 就 是 你 调用 gym.make (‘id’) 时 的 id， 这 个 id 可 以 随 
便 选 取 ， 笔 者 取 的 名 字 是 GridWorld-v0。 

第 二 个 参数 就 是 函数 路 口 了 ， 后 面 的 参数 原则 上 来 说 可 以 不 必 
Fjo 

经 过 以 上 三 步 ， 就 完成 了 注册 。 下 面 ， 我 们 用 一 个 简单 的 demo 来 
测试 下 环境 的 效果 。 

我 们 依然 写 个 终端 程序 ， 代 码 如 下 。 


source activate gymlab 

python 

env = gym.make('GridWorld-v0') 
env.reset () 

env. render () 


代码 运行 后 会 出 现 如 图 2.9 所 示 的 效果 。 
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图 2.9 机 器 人 找 金 币 仿 真 环境 


2.4 习题 
1. 马 尔 科 夫 过 程 与 马尔 科 夫 决策 过 程 的 区 别 。 


2. 随 机 策略 的 理解 。 
3. 安 装 gym 并 测试 其 中 的 CartPole 实 例 。 
4. 基 于 gym 构 建 如 下 迷宫 世界 : 


3 基于 模型 的 动态 规划 方法 
3.1 基于 模型 的 动态 规划 方法 理论 


上 一 章 我 们 将 强化 学 习 的 问题 纳入 到 马尔 科 夫 决策 过 程 的 框架 下 
解决 。 一 个 完整 的 已 知 模型 的 马尔 科 夫 决策 过 程 可 以 利用 元 组 (S, 
A, P, r, yY) 来 表示 。 其 中 S 为 状态 集 ，A 为 动作 集 ，P 为 转移 概率 ， 
也 就 是 对 应 着 环境 和 智能 体 的 模型 ，r 为 回报 遂 数 ，y 为 折扣 因子 用 来 计 


T 
算 累积 回报 R。 累 积 回报 公式 为 R= 》,y'r ， 其 中 0<y<1， 当 T 为 有 限 值 
t=0 


强化 学 习 。 我 们 以 有 限 范围 强化 学 习 为 例 进 行 讲解 。 

强化 学 习 的 目标 是 找到 最 优 策 略 r 使 得 累积 回报 的 期 望 最 大 。 所 谓 
策略 是 指 状态 到 动作 的 映射 r: sa， 用 1 表示 从 状态 s 到 最 终 状态 的 一 
个 序列 +: st ，st+1 .…，sT ， 则 累积 回报 R O 是 个 随机 变量 ， 随 机 变 
量 无 法 进行 优化 ， 无 法 作为 目标 函数 ， 我 们 采用 随机 变量 的 期 望 作为 
BARZ BOR (1) py (x) dt 作为 目标 函数 。 用 公式 来 表示 强化 学 
习 的 目标 : max |R(r)pr (7)dr 。 强 化 学 习 的 最 终 目标 是 找到 最 优 策 
略为 六 : su" ， 我 们 看 一 下 这 个 表达 式 的 直观 含义 。 

如 图 3.1 所 示 ， 最 优 策 略 的 目标 是 找到 决策 序列 由 ul uF, 
因此 从 广义 上 来 讲 ， 强 化 学 习 可 以 归结 为 序 贯 决策 问题 。 即 找到 一 个 
决策 序列 ， 使 得 目标 函数 最 优 。 这 里 的 目标 函数 及 (t) pr (x) dr 是 
累积 回报 的 期 望 值 ， 累 积 回报 的 含义 是 评价 策略 完成 任务 的 总 回报 ， 
所 以 目标 函数 等 价 于 任务 。 强 化 学 习 的 直观 目标 是 找到 最 优 策略 ， 目 
的 是 更 好 地 完成 任务 。 回 报 函数 对 应 着 具体 的 任务 ， 所 以 强化 学 习 所 
学 到 的 最 优 策略 是 与 具体 的 任务 相对 应 的 。 从 这 个 意义 上 来 说 ， 强 化 
学 习 并 不 是 万 能 的 ， 它 无 法 利用 一 个 算法 实现 所 有 的 任务 。 


So * S1 * ST 


图 3.1 序 贯 决策 示意 图 

从 广义 上 讲 ， 强 化 学 习 是 序 贯 决 策 问 题 。 但 序 贯 决策 问题 包含 的 
内 容 更 丰富 。 它 不 仪 包含 马尔 科 夫 过 程 的 决策 ， 而 且 包 括 非 马尔 科 夫 
过 程 的 决策 。 在 上 一 节 ， 我 们 已 经 将 强化 学 习 纳入 到 马尔 科 夫 决策 过 
程 MDP 的 框架 之 内 。 马 尔 科 夫 决策 过 程 可 以 利用 元 组 (S, A, P, r, 
y) 来 描述 ， 根 据 转移 概率 P 是 否 已 知 ， 可 以 分 为 基于 模型 的 动态 规划 
方法 和 基于 无 模型 的 强化 学 习 方 法 ， 如 图 3.2 所 示 。 两 种 类 别 都 包括 策 
略 和 迭代 算法 ， 值 和 迭代 算法 和 策略 搜索 算法 。 不 同 的 是 ， 在 无 模型 的 强 
化 学 习 方 法 中 ， 每 类 算法 又 分 为 online 和 offline 两 种 。online 和 offline 的 
具体 含义 ， 我 们 会 在 下 一 章 中 详细 介绍 。 


S 


马尔 科 夫 决 策 过 程 NDP (5,4, P,R,y) 


(S,A,P,R,y) (S,A,P? R? y? ) 


基于 模型 的 动态 规划 方法 无 模型 的 强化 学 习 方法 
Rak) (mer) (ERER i eT a 


本 节 讲 基于 模型 的 策略 迭代 算法 和 值 迭代 算法 
图 3.2 强化 学 习 分 类 

基于 模型 的 强化 学 习 可 以 利用 动态 规划 的 思想 来 解决 。 顾 名 思 
义 ， 动 态 规划 中 的 “动态 ” 综 含 着 序列 和 状态 的 变化 ; “AX BSA 
化 ， 如 线性 优化 ， 二 次 优化 或 者 非 线性 优化 。 利 用 动态 规划 可 以 解决 
的 问题 需要 满足 两 个 条 件 : 一 是 整个 优化 问题 可 以 分 解 为 多 个 子 优 化 
问题 ; 二 是 子 优化 问题 的 解 可 以 被 存储 和 重复 利用 。 前 面 已 经 讲 过 ， 
强化 学 习 可 以 利用 马尔 科 夫 决策 过 程 来 描述 ， 利 用 贝尔 曼 最 优 性 原理 
得 到 贝尔 曼 最 优化 方程 : 


os) = max R? +y), Pew’ (s’) 
= (3.1) 
q ( j=R +y) Pe max , ig’ ( S 'a') 
s'eS 
MAT (3.1) 中 可 以 看 到 ， 马 尔 科 夫 决 策 问 题 符 合 使 用 动态 规划 
的 两 个 条 件 ， 因 此 可 以 利用 动态 规划 解决 马尔 科 夫 决策 过 程 的 问题 。 
贝尔 曼 方 程 (3. 指出 ， 动 态 规划 的 核心 是 找到 最 优 值 辆 数 。 那 
么 ， 第 一 个 问题 是 : 给 定 一 个 策略 x， 如 何 计算 在 策略 ne 下 的 值 疯 数 ? 
其 实 上 章 已 经 讲 过 ， 此 处 再 重复 一 遍 ， 如 图 3.3 所 示 : 


Up(s) — sO) 


图 3.3 值 遂 数 计算 过 程 
图 中 上 部 大 方 框 内 的 计算 公式 为 
vr (s)= 2 7(als)gr (s,a) (32) 


acA 


该 方程 表示 ， 在 状态 $ 处 的 值 函 数 等 于 采用 策略 r 时 ， 所 有 状态 - 行 
为 值 水 数 的 总 和 。 下 面 小 方 框 的 计算 公式 为 状态 -行为 值 水 数 的 计算 : 


qz (s,a) = Re +È Pave (s‘) (3.3) 
BARRM, TASKAS FARS ARAE FER LBA 


SARM 
将 方程 (3.3) 代入 方程 (3.2) 便 得 到 状态 值 函 数 的 计算 公式 : 


CAS)\= >. x Cl Re +7 Po ) (3.4) 


Ge s'es 

状态 s WAKER (s) , ALAA BARS, (s) 

RRM. MESAN, MAASE (s) 也 是 未 知 的 ， 那 么 

GATE YARRA EAR, KRERB CHES? 如 图 3.4 所 示 。 没 
错 ， 这 正 是 bootstrapping 算 法 ( 自 举 算法 ) ! 


图 3.4 自 举 示意 图 
如 何 求解 (3.4) 的 方程 ? BA, 我们 从 数学 的 角度 去 解释 方程 
(3.4) 。 对 于 模型 已 知 的 强化 学 习 算法 , 方程 (3.4) 中 的 Ps, val 
R? 都 是 已 知 数 ，n (als) 为 要 评估 的 策略 是 指定 的 ， 也 是 已 知 值 。 方 


te (3.4) 中 唯一 的 未 知 数 是 值 函 数 ， 从 这 个 角度 理解 方程 (3.4) 可 
知 ， 方 程 (3.4) 是 关于 值 函 数 的 线性 方程 组 ， 其 未 知 数 的 个 数 为 状态 


的 总 数 ， 用 |S| 来 表示 。 


此 处 ， 我 们 使 用 高 斯 - 赛 德尔 迭代 算法 进行 求解 。 即 : 
人 Z alals)| rs +79, Prio ls s) (3.5) 


ae s'eS 


策略 评估 算法 
[1] 输入 : 需要 评估 的 策略 x 状态 转移 概率 Ps, 回报 函数 RR , IAF y 
[2] 初始 化 值 函 数 : V(s) = 0 
[3] Repeat k=0,1,... 


一 次 状态 扫描 


for every s do 


Uk+i(S) = >. (als) (rs TY > pa) ) 


QE4 SIES 


[7] Until Uk+1 = Vk 


[8] 输出 : v(s) 
图 3.5 策略 评估 算法 的 伪 代 码 
需要 注意 的 是 ， 每 次 迭代 都 需要 对 状态 集 进 行 一 次 遍历 (扫描 ) 
以 便 评估 每 个 状态 的 值 消 数 。 
接 下 来 ， 我 们 举 个 策略 评估 的 例子 。 


如 图 3.6 所 示 为 网 格 世界 ， 其 状态 空间 为 S={1，2，...，14}， 动 作 
空间 为 A={ 东 ， 南 ， 西 ， 北 }， 回 报 辫 数 为 f=-1， 需 要 评估 的 策略 为 均 
匀 随 机 策略 : 


x (Ak R= w25, Weh |-)=0.25 zx( |-)=0.25 x( |-)=0.25 


ji tte fe 


动作 


图 3.6 网 格 世 界 
图 3.7 为 值 玉 数 迭 代 过 程 中 值 函 数 的 变化 。 为 了 进一步 说 明 ， 我 们 
举 个 具体 的 例子 ， 如 从 K=1 到 K=2 时 ， 状 态 1 处 的 值 函 数 计算 过 程 。 


-2.4 


30/29 
四 四 | -2.0|-1.7| |-2.9 |-3.0| -2.9 
-2o|-20|-17|00| [s0]-29] -2.4 | 0.0 


K=2 


图 3.7 值 函数 迭代 中 间 图 
由 公式 (3.5) 得 到 : 

vél) = 0.25* ()-10.25* CD-1 0.25* -1-1 .25* - 1+0 =0.25* -7 =-1.75 
保留 两 位 有 效 数字 便 是 -1.7。 
计算 值 函 数 的 目的 是 利用 值 函 数 找到 最 优 策 略 。 第 二 个 要 解决 的 

问题 是 : 如 何 利 用 值 函数 进行 策略 改善 ， 从 而 得 到 最 优 策 略 ? 


一 个 很 自然 的 方法 是 当 已 知 当前 策略 的 值 函数 时 ， 在 每 个 状态 采 
用 贪 禁 策略 对 当前 策略 进行 改善 ， 即 1"1(s) sarg max q” (s,a) 


如 图 3.8 给 出 了 贪 要 策略 示意 图 。 图 中 虚线 为 最 优 策 略 选择 。 


a 
Rs 


$,a > G,(s,a) 


Qu(S,a) = RE +y ) Ph, vals’) 


图 3.8 贪 梦 策略 计算 
如 图 3.9 所 示 为 方 格 世界 贪 楚 策 略 的 示意 图 。 我 们 仍然 以 状态 1 为 例 
得 到 改善 的 贪 禁 策略 : 


m (1) = arg max {q (1, AR), q(1, FA), q(1, 西 ),9(L 北 )} 
=arg max {-1-8.4,-1-7.7,-1+0, -1-6.1}={ 西 } 


ro 均匀 策略 : 十 


至 此 ， 我 们 已 经 给 出 了 策略 评估 算法 和 策略 改善 算法 。 万 事 已 具 
备 ， 将 策略 评估 算法 和 策略 改善 算法 合 起 来 便 组 成 了 策略 迭代 算法 ， 
如 图 3.10 所 示 。 

策略 迭代 算法 
中 输入: 状态 转移 概率 RBA? , HMAF 
初始 化 值 函 数 : V(s) = 0 初始 化 策略 ro 


[2] Repeat 1=0,1,... 

[3] find V™ Policy evaluation 

[4] 141(S) E argmaxq™(s,a) Policy improvement 
a 


[5] Until Mi+ı = Mı 
(6) 输出 : mw =m 
图 3.10 策略 迭代 算法 
策略 迭代 算法 包括 策略 评估 和 策略 改善 两 个 步骤 。 在 策略 评估 
中 ， 给 定 策略 ， 通 过 数值 迭代 算法 不 断 计 算 该 策略 下 每 个 状态 的 值 函 
数 ， 利 用 该 值 函 数 和 贪 要 策略 得 到 新 的 策略 。 如 此 循环 下 去 ， 最 终 得 
到 最 优 策略 。 这 是 一 个 策略 收敛 的 过 程 。 
如 图 3.11 所 示 为 值 亢 数 收敛 过 程 ， 通 过 策略 评估 和 策略 改善 得 到 最 
优 值 永 数 。 从 策略 迭代 的 伪 代 码 我 们 看 到 ， 进 行 策略 改善 之 前 需要 得 
SUCK AY (BER EX. (BRANES SIRE RIAN, MEN Me 
{TRIB KNS Za EES El RR (BEAU NS? 


m = greedy(V) 


图 3.11 值 函数 收敛 
对 于 这 个 问题 ， 我 们 还 是 先 看 一 个 例子 。 如 图 3.12 所 示 ， 策 略 评估 
迭代 10 次 和 和 途 代 无 穷 次 所 得 到 的 贪 要 策略 是 一 样 的 。 因 此 ， 对 于 上 面 


的 问题 ， 我 们 的 回答 是 不 一 定 等 到 策略 评估 算法 完全 收敛 。 如 果 我 们 
在 评估 一 次 之 后 就 进行 策略 改善 ， 则 称 为 值 流 数 迭 代 算 法 。 


mi 货 楚 策略 ， 
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图 3.12 策略 改善 
值 遂 数 迭代 算法 (如 图 3.13 所 示 ) 的 伪 代 码 为 
[1 输入: 状态 转移 概率 Bs, 回报 函数 Rf ， 折 扣 因 子 Y 
初始 化 值 函 数 :v(s) = 0 初始 化 策略 ro 


[2] Repeat 1=0,1,... 
[3] for every s do 
[4] vi+1(s) = maxRs + y > Pssvi(s') 


SIES 
[5] Until viri = vı 
[6] 输出 : m(s)= argmaxRs +Y X Peiuifs 


SIES 
图 3.13 (AAGA 


需要 注意 的 是 在 每 次 迭代 过 程 中 ， 需 要 对 状态 空间 进行 一 次 扫 
指 ， 同 时 在 每 个 状态 对 动作 空间 进行 扫描 以 便 得 到 贪 梦 的 策略 。 


(BREATHE SALE SAB ARATE, Ri RRA 
Re BIC SRRUARZI KA. FARAH AEE 
三 种 思路 : 变 分 法 原理 、 庞 特 里 亚 金 最 大 值 原理 和 动态 规划 的 方法 。 
三 种 方法 各 有 优 缺 点 。 

基于 变 分 法 的 方法 是 最 早 的 方法 ， 其 局 限 性 是 无 法 求解 带 有 约束 
的 优化 问题 。 基 于 庞 特 里 亚 金 最 大 值 原理 的 方法 在 变 分 法 基础 上 进行 
发 展 ， 可 以 解决 带 约 束 的 优化 问题 。 相 比 于 这 两 种 经 典 的 方法 ， 动 态 
规划 的 方法 相对 独立 ， 主 要 是 利用 贝尔 曼 最 优 性 原理 。 

对 于 一 个 连续 系统 ， 往 往 有 一 组 状态 方程 来 描述 : 

X=f(t,X,U) X(to)=Xo (3.6) 

性 能 指标 往往 由 积分 给 出 : 

I{ x(t) sto ]= OX (ty) str ]+ f” L(x), u(2),0) (3.7) 


最 优 控制 的 问题 是 


V(X,t)= minal (ty)otr ]+ fi L(x(1),u(t),0) (3.8 ) 
由 贝尔 曼 最 优 性 原理 得 到 哈密 尔 顿 -雅克 比 -贝尔 曼 方 程 : 


TY = CEORODE S f KOROM (3.9) 


方程 (3.9) 是 一 个 偏 微分 方程 ， 一 般 不 存在 解析 解 。 对 于 偏 微 分 
方程 (3.9) ， 有 三 种 解决 思路 : 第 一 种 思路 是 将 值 函 数 进行 离散 ， 求 
解 方程 (3.9) 的 数值 解 ， 然 后 利用 贪 楚 策 略 得 到 最 优 控 制 。 这 对 应 于 
求解 微分 方程 的 数值 求解 方法 ; 第 二 种 思路 是 利用 变 分 法 ， 将 微分 方 
程 转化 成 变 分 代数 方程 ， 在 标 称 轨迹 展开 ， 得 到 微分 动态 规划 DDP，; 
第 三 种 思路 是 利用 阔 数 荧 近 理论 ， 对 方程 中 的 回报 溯 数 和 控制 水 数 进 
行 纱 数 带 近 ， 利 用 优化 方法 得 到 逼近 系数 ， 这 类 方法 称 为 伪 谱 的 方 
法 。 

前 两 种 方法 都 是 以 值 函 数 为 中 心 ， 其 思路 与 值 亢 数 迭 代 类 似 ， 我 
们 在 此 介绍 前 两 种 方法 。 


一 个 思路 : 将 水 数 进行 数值 离散 化 ， 也 就 是 HJB 方 程 的 数值 算 
ho 
如 图 3.14 所 示 为 平面 移动 机 器 人 的 移动 规划 部 分 的 代码 ， 从 代码 中 
我 们 看 到 ， 图 3.14 框 线 内 节点 处 的 值 在 计算 时 选取 的 也 是 最 小 值 阔 数 。 


for iter in range(iter_num): 
for sl in rg: 
for s2 in rg: 
for s3 in rg: 
for i in index[s1]: 
for j in index[s2]: 
for k in index[s3]: 


Vin’ i min (Vi, V2, Vz, Va, Vik ; ) 


图 3.14 平面 移动 机 器 人 移动 规划 
第 二 个 思路 是 采用 变 分 法 。 下 面 我 们 给 出 DDP 方 法 的 具体 推导 公 
了 式 和 伪 代 码 。 
由 贝尔 曼 最 优 性 原理 得 
V (X,t) = min(g[X (t; tr J+ f I ().t)ar} 


ueQ 


(3.10 ) 
pee 
假设 
Sea = f (fotte) 
Ve = min| I (x4 ,uk)+ Vin (est) | 
SQ (5x, du) =V (x+6x) -V (x) ， 则 Q 在 标 称 轨迹 (xk; uk 
) 展开 : 


Q(6x,6u) =V(x+dx)-V (x) 
=I (x, + OX¢ Uy + OUg ) +ga (zl + Xk ) (T(xiu ) + hi (x )) 


l 
~ Ox{l, 十 CU 人 十 一 (a Lex, Oxy + 2OXE ly, Oy + Out Ly, Oig )+ Oxf V, fel + ONE ma Oe 


(3.11) 
又 xk+1 =f (xq, uk) ， 得 到 : 


Xha] =f (api) fart fuot + (53f fa, dx + 283) Fru, Our + Ouf frau, 5U) | 3.12) 


将 (3.12) 代入 (3.11) 可 以 得 到 : 
l uQ uôu +(6u Qx 8x +x Qu du) + OF Out dul OQ, + 5x" Q 8x + 


OXx,0u)=— 
ol 2| 5x70, + OT 6x 


(3.13) 


3 


Qs = be, + fa Vi 
Oy = hy I Vaa 
Ove = bee, + FE Vc, fo + Vg fnin (3.14) 
Osn = han. tI Veen far + Van Ln 
Cu = lix + SIV xea fo + Vs fux 
AG (3.13) 视 为 su 的 函数 ， 则 Q_ (Sx, du) 是 5u 的 二 次 函数 。 
如 图 3.15 所 示 ， Ou’ = arg min O(6x, ou) = -Qp (Q, + 040%) i 


图 3.15 (ERARE PEK 
我 们 令 
k = -0;10,, K= -Oa Ow ( 3.15 ) 
WW Ou" =argminQ(6x,6u)=k+Kox 
Ou 


l 
AV = 名 Or O; 
£ 3.16 
Va = Q, = Q, Or Oe ( ) 
Voge = On a Ox, 网 On, 


微分 动态 规划 的 伪 代 码 为 
e 前 向 迭代 : 给 定 初始 控制 序列 WwW ， 正 向 迭代 计算 标 称 轨迹 。 
Met = f (aoig dns Ings NN ON 
e 反 向 迭代 : 由 代价 函数 边界 条 件 VxN ，VxxN 反 向 和 迭代 计算 
(3.14) , (3.15) 和 (3.16) 得 到 贪 楚 策略 5u 。 
e 正 向 迭代 新 的 控制 序列 : 


Xk+l = JF (este) 
从 第 二 步 反 向 迭代 计算 贪 梦 策略 5u” 的 过 程 我 们 可 以 看 到 ， 贪 楚 策 
上 略 通 过 最 小 化 值 遂 数 得 到 。 
3.2 动态 规划 中 的 数学 基础 讲解 


3.2.1 线性 方程 组 的 迭代 解法 


利用 (3.4) 计算 策略 已 知 的 状态 值 阅 数 时 ,方程 (3.4) 为 一 个 线 
性 方程 组 。 因 此 策略 的 评估 就 变 成 了 线性 方程 组 的 求解 。 线 性 方程 组 
的 数值 求解 包括 直接 法 (如 高 斯 消 元 法 ， 和 矩阵 三 角 分 解法 ,平方 根 


eee ea eee eet 

1. 何 为 迭代 解法 

不 失 一 般 性 ， 用 方程 (3.17) 表示 一 般 的 线性 方程 组 。 

AX =b (3.17) 

所 谓 和 迭代 解法 是 根据 (3.17) 式 设计 一 个 迭代 公式 ， 任 取 初 试 什 
X® ， 将 其 代入 到 设计 的 迭代 公式 中 ， 得 到 X0 , BEX? 代入 和 迭代 
公式 中 得 到 X2 ， 如 此 循环 最 终 得 到 收敛 的 X 。 

那么 ， 根 据 (3.17) 式 如 何 设计 和 迭代 公式 ? 

(1) 方法 一 : 雅克 比 (Jacobi) eA. H 

雅克 比 迭 代 法 假设 系数 矩阵 的 对 角 元 素 s 夫 0 。 从 (3.17) 的 第 i 
个 方程 分 离 出 Z，， 以 此 构造 迭代 方程 : 


1 
Tı 一 a, C222 — Maa Onn bi) 
Tz = = (—Ay1 T1 — a23 £3 — *** — Aan Tn + b2) 
A22 (3.18 ) 
1 
Ly = a. (-anı 21 — Ang Lz — *** — An n—1Tn—1 + bn) 
方程 (3.18) 写成 矩阵 的 形式 为 
(3.19 ) 


X=-D'(L4+U)X+D"b 
其 中 : 


ia - 0 0 ai aa Qin | 

ie 01 0 0 ag … an 

D= , L=| ag az 0 , D= 
' a . 3 s: O. G15 

- Lani oa Ang … 0 0 


@igB=-D°(L+U), 4d 二 Db ， 则 迭代 公式 为 


X=BX+d (3.20 ) 
HITARAR, (3.18) 式 变 为 
1 
a r= 一 (= 
11 
1 
(k+1) 一 (k) (k) (k) 
g = — (=p LZ} =t] — +++ — Aan Ly +O 
2 his ( 21%1 23 v3 2 2) (3.21 ) 
«+n 1 (k) (k) (k) 
Ln = (ani i — An2 T2 — Ay 100.1 bn) 


利用 迭代 公式 (3.20) 求解 线性 方程 组 (3.17) 的 方法 称 为 雅克 比 
和 迭代 法 。 和 矩阵 B 称 为 和 迭 代 和 矩阵 。 

雅克 比 迭 代 法 解 线性 方程 很 快 ， 还 能 不 能 更 快 ? 答案 是 肯定 的 。 
我 们 可 以 观察 (3.21) ， 不 难 发 现 第 & 十 1 次 和 迭代 计算 分 量 z” 7” 时， 
Ser) oft? co? 都 已 经 求 出 来 了 ， 但 是 在 计算 r” aj, W 
克 比 迭代 方法 没有 利用 这 些 新 计算 出 来 的 值 。 如 果 这 些 新 计算 出 来 的 
值 能 够 被 利用 ， 计 算 速 度 肯定 会 提高 ， 这 就 是 高 斯 - 赛 德尔 迭代 法 。 

2. 高 斯 - 赛 德尔 迭代 法 

当 求 得 新 的 分 量 之 后 ， 马 上 用 来 计算 的 迭代 算法 称 为 高 斯 - 赛 德尔 
迭代 法 。 对 于 线性 方程 组 ， 对 应 于 雅克 比 和 迭代 过 程 (3.21) 的 高 斯 - 赛 
德尔 迭代 过 程 为 


1 

k+1 k k 

a} "= an (-a22$ ) 一 m I — -an 0 + bi) 
1 


kth 一 = (-an rtt” a Ao, TY) ae 6 69 da 十 b2) eo 
gt) 二 1 (-an rft” — ER lle eee 0 Si + bn) 
用 和 矩阵 的 形式 可 表示 为 
(D+ L)X*t9=-UX™ +b 
BRIANNA 
XD GX” +d, (3.23) 


HHG=-(D+L)1U, d= (D+) tb 


3.2.2 压缩 映射 证 明 策 略 评估 的 收敛 性 


首先 ， 我 们 先 从 数学 上 了 解 什么 是 压缩 映射 (Contraction 
Mapping) o Contraction Mapping 中 文 可 以 译 为 压缩 映射 或 压缩 映像 。 
这 个 概念 来 自 于 数学 中 的 泛 遂 分 析 。 内 容 涉 及 不 动 点 理论 。 不 动 点 和 
压缩 映射 常用 来 解决 代数 方程 ， 微 分 方程 ， 积 分 方程 等 ， 为 方程 解 的 
存在 性 、 唯 一 性 和 讨论 迭代 收敛 性 证 明 提 供 有 力 的 工具 。 本 文 用 来 证 
明和 迭代 的 收敛 性 。 

定义 : 设 ZEST, HESAP Rm. RHTX-X ， 若 存 
Ta, OXa<1 使 得 p(7z,7Ty) <ap(a,y), Va,yeX ， 则 称 T 是 X 
上 的 一 个 压缩 映射 ; 

ETE To E X 使 得 Tzo 三 Zo ， 则 称 zo 是 了 的 不 动 点 。 


定理 1 完备 度量 空间 上 的 压缩 映射 具有 唯一 的 不 动 点 。 


定理 1 是 说 ， 从 度量 空间 任何 一 点 出 发 ， 只 要 满足 压缩 映射 ， 压 缩 
映射 的 序列 必定 会 收敛 到 唯一 的 不 动 点 。 因 此 证 明 一 个 迭代 序列 是 不 
是 收敛 ， 只 要 证 明 该 序列 所 对 应 的 映射 是 不 是 压缩 映射 。 

我 们 已 经 知道 了 什么 是 压缩 映射 ， 那 么 策略 评估 是 如 何 跟 压缩 映 
射 扯 上 关系 的 呢 ? 

回答 这 个 问题 ， 我 们 还 要 奶 根 溯源 ， 看 看 基于 模型 的 策略 评估 到 
底 是 什么 东西 。 前 面 已 经 提 过 ， 从 数学 的 角度 来 看 ， 若 将 值 滔 数 看 成 
是 未 知 数 ， 值 消 数 的 求解 其 实 是 解 一 组 线性 方程 。 为 讲述 方便 ， 我 们 
在 这 里 再 次 列 一 下 : 


v,(s) = > z (als) (z: +y% Piv, o) 


acA S'ES 


IXTRI, KAMER A AEA- RAR: 


Uk+1(8) = > n (als) (R+ Pew, o) 


acA SES 
A-A aR A RIE D BIA FOUN RF ED BY AS AL AB BEANE 
半径 小 于 1， 这 个 条 件 也 是 由 压缩 映射 定理 得 来 的 。 在 这 里 ， 我 们 不 去 
求 系数 矩阵 的 谱 ， 而 是 找 一 个 特殊 的 度量 P 以 便 简化 证 明 ， 这 个 度量 
我 们 选 为 无 穷 范 数 ， 即 


lvl]. = max llv(s)| 
ses 


MSs (BRE R—MAN AER BI MA 
T” (v) =R*4+4P"v 

下 面 ， 我 们 证 明 该 映射 是 一 个 压缩 映射 。 

证 明 


p(T" (u), T" (v)) = |T" (u) =T" w) lw 
= || (R7 + 7P" u) — (R” + 4P" v) || 
= ||P" (u — v) ll x 
< ||yP*llu— tlela 
< ylu= tles 
AAOSy<1, MAT” (v) 是 一 个 压缩 映射 ， 该 迭代 序列 最 终 收 


钙 到 相应 于 策略 n 的 值 水 数 。 上 面 是 利用 向 量 形式 进行 的 推导 ， 可 能 不 
是 很 直观 ， 下 面 我 们 从 值 函 数 的 定义 出 发 进行 证 明 。 
根据 图 3.16， 值 函数 公式 为 : 


vu, (8) = > > (als) z: 十 TY Pav, 3) 


acA SES 


T” (u) = X ` n (aļs)R" (s,a) +y > (als) X ` Piu (8) 


acA SEO 


了 (oO >》 ,rals)Rr(s,a) 十 y > ` n (als) > Puu, (s') 


acA acA s’ES 


图 3.16 (BRE XE 


如 图 3.17 中 的 不 等 式 证 明 所 示 : 第 一 个 不 等 号 对 应 动作 值 函数 差 
绝对 值 max lg (s,a) 一 9,(s,Q) 川 最 大 的 那个 分 支 ; 第 二 个 不 等 式 对 
应 着 下 一 级 值 函数 差 绝 对 值 最 大 的 那个 ， 第 三 个 不 等 号 则 是 将 s' 推广 
到 整个 状态 空间 ， 即 放大 到 整个 状态 空间 中 值 函数 差 最 大 的 那个 。 
T*(u) —T*(v)||.x 


= max |7 > (als) P Puls) 一 个 pie t (a|s) 2 Ps,v,(s') 


acA 
< max Ay P*.u,(s') 一 >, Psu) 


< max | ymax ||u,(s') — v,(s') || 
5 s'ES 


< ymax ||u,(s) — v,(s) || 
sES 


图 3.17 收敛 性 证 明 
如 果 将 值 遂 数 看 成 是 一 个 向 量 ， 无 穷 荡 数 是 该 向 量 中 绝对 值 最 大 
的 那个 。 


IT" (u) —T* (wv) lo < (8) — vr (3) Ilco 


3.3 基于 gym 的 编程 实例 


我 们 在 本 章 的 3.1 节 中 已 经 介绍 了 基于 策略 迭代 的 方法 和 基于 值 函 
数 的 方法 。 在 本 节 中 ， 我 们 基于 Python 和 gym 实 现 策略 迭代 方法 和 值 迭 
代 方 法 。 我 们 仍然 以 机 器 人 找 金币 为 例 ， 其 MDP 模 型 在 上 一 章 已 经 给 
出 了 介绍 。 这 一 节 我 们 先 介绍 策略 迭代 方法 ， 再 介绍 值 迭 代 方 法 。 

1. 策 略 迭 代 方 法 

如 3.1 节 中 ， 策 略 迭 代 方 法 包括 策略 评估 和 策略 改善 。 在 Python 中 
代码 定义 如 图 3.18 所 示 。 


a 策略 选 代 算 法 
HRA: 状态 转移 概率 Ps 回报 函数 Re ， 折 扣 因 子 ) 
初始 化 值 函数 ， V(s)=0 初始 化 策略 No 


{2} Repeat 1=0,1,... 


Python 代码 片段 


def policy_iterate(self, grid_mdp): 
for i in range(100): 
(3) find v™ Policy evaluation 一 一 | » self. policy_evaluate(_mdp) ; 
(4] mails) €argmaxg*(s,a) Policyimprovement ———» self. policy_improve(grigridd_mdp) ; 


(5) Until Misi = 

C (6) 输出: =m F, 
图 3.18 策略 迭代 伪 代 码 及 Python 代码 定义 

在 图 3.18 中 ，Python 代 码 包 括 策 略 评估 和 策略 改善 两 个 子 程序 。 这 
两 个 子 程序 交替 运行 ， 使 得 策略 逐渐 优化 收 人 钱 。 下 面 我 们 需要 分 别 实 
现 策略 评估 和 策略 改善 。 

首先 是 策略 评估 。 

策略 评估 算法 的 伪 代 码 由 图 3.5 给 出 。 图 3.19 中 ， 我 们 给 出 策略 评 
估算 法 的 伪 代 码 及 Pyhon 实 现 。 


策略 评估 算法 Python 代码 片段 
(HA: 需要 评估 的 策略 zt 状态 转移 概率 pa, 回报 函 ||def policy evaluate(self, grid mdp): 
数 Re， 折 扣 因 子 y for i in range(1000): 
delta = 0.0 
[2] 初始 化 值 函 数 ; V(s)=0 for state in grid mdp. states: 


if state in grid mdp. terminal states: continue 
Repeat k=0,1,... Pere Rat ] 
f F action ell. pl state) 
ar every i ; > 、 
Orevery 8 cc t, s, r grid_mdp. transform(state, action) 
venls) = ) alal) Re+y Y Paves) new v = r + grid mdp. gamma * self. v[s] 
aEA SIES | delta += abs(self. vi state] - new v) 


end for _ 
Lself.v[state] = new v 


Until Vk+1 = Uk ste i 
saag f delta < le-6: 
x ai- ai 
[8] th: — v(s) f 


图 3.19 策略 评估 算法 伪 代 码 及 Python 实现 
需要 注意 的 一 点 是 策略 评估 包括 两 个 循环 ， 第 一 个 循环 为 1000 
次 ， 保 证 值 永 数 收敛 到 该 策略 所 对 应 的 真实 值 玫 数 。 第 二 个 循环 为 整 
个 状态 空间 的 扫描 ， 这 样 保证 状态 空间 每 一 点 的 值 遂 数 都 得 到 估计 。 
在 第 二 个 循环 中 ， 用 到 了 系统 的 模型 ， 即 ， 由 于 模型 已 知 ， 因 此 我 们 
确切 地 知道 采用 相应 的 策略 后 下 一 个 状态 是 什么 。 这 个 性 质 使 得 智能 
体 无 需 实际 采用 这 个 动作 然后 看 下 一 个 状态 是 什么 ， 而 仅仅 利用 模型 
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就 能 预测 下 个 状态 。 这 个 展 好 的 性 质 使 得 智能 体能 预测 所 有 的 动作 ， 
而 无 模型 的 方法 则 没有 如 此 好 的 性 质 这 是 基于 模型 方法 和 无 模型 
方法 的 本 质 区 别 。 无 模型 的 方法 只 能 利用 各 种 方法 来 估计 当前 的 行为 
好 坏 。 
有 了 策略 评估 ， 策 略 改善 就 比较 简单 了 ， 即 基于 当前 的 值 图 数 得 
到 贪 楚 策 略 ， 将 贪 梦 策 略 作为 更 新 的 策略 ， 策 略 改善 用 公式 表示 为 
nia (s) € argmax gm (s,a) (3.24) 


图 3.20 为 策略 改善 的 Python 代码 ， 该 代码 包括 两 个 循环 ， 外 循环 对 
整个 状态 空间 进行 遍历 ， 内 循环 对 每 个 状态 空间 所 对 应 的 动作 空间 进 
行 遍历 ， 通 过 动作 值 疯 数 得 到 仿 梦 策略 。 

整个 策略 改善 的 代码 其 实 是 为 了 实现 公式 (3.24) 。 


Python 代 码 片 段 
def policy improve(self, grid mdp): 
for state in grid mdp. states: 
if state in grid mdp. terminal states: continue 


al = grid mdp. actions[0] 
t, s, r = grid mdp.transform( state, al ) 
vl = r + grid mdp. gamma * self. v[s] 


~ for action in grid mdp. actions: 
t, s, r = grid mdp. transform( state, action ) 
RRS | if vl < r + grid mdp. gamma * self.vls]: 
| al = action 
| vl = r + grid mdp. gamma * self.v[s] 
-self. pilstate] = al 


图 3.20 策略 迭代 算法 中 的 策略 改善 
2. 值 迭代 方法 
基于 策略 迭代 的 方法 是 交替 进行 策略 评估 和 和 货 略 改善 。 其 中 人 策略 
评估 中 需要 迭代 多 次 ， 以 保证 当前 梨 略 评估 收敛 。 值 色 代 的 方法 则 是 
在 策略 评估 步 只 迭代 一 次 。 其 伪 代 码 和 Python 代码 实现 如 图 3.21 所 示 。 


i Ne Python 代码 片段 
值 函数 迭代 算法 def value_iteration(sel!, grid_mdp) : 


„for i in range (1000): 
delta = 0.0 
输入 ; 状态 转移 概率 PS REARS , 折扣 因子 7 | _» for state in grid_mdp. states: 
: ; a = if state in grid_mdp. terminal states: continue 
HRW BAR :v(s) = 0 初始 化 策略 To á al = grid mdp. actions[0] 
l p l t, s, r = grid mdp, transform( state, al ) 
Repeat 1=0,1;7 $ v] =r + grid_mdp. gamma * self. v[s] 
for every s do - for action in grid_mdp. actions: 
ere = t, s, r = grid mdp, transform( state, action ) 
Uj44(S) = maxRs + ry PSl’) 一 -一 一 if vl < r+ grid mdp, gamma * self. v[s]: 
SIES al = action 
Until V+ = V vl = r + grid_mdp. gamma * self. vls 
delta t= abs(vl .v[state]) 
输出 : (s) = argmaxR +y Y Pius’) f.pi[state] = al 


\ A S'ES f.v[state] = vl 
if delta < le-6: 
break 


图 3.21 值 迭 代 算 法 伪 代 码 与 Python 代码 
值 迭 代 需 要 三 重 循环 ， 第 一 重大 循环 用 来 保证 值 图 数 收效， 第 二 
重 中 间 的 循环 用 来 遍历 整个 状态 空间 ， 对 应 着 一 次 策略 评估 ， 第 三 重 
最 里 面 的 循环 则 是 遍历 动作 空间 ， 用 来 选 最 优 动作 。 


3.4 最 优 控制 与 强化 学 习 比较 


当 模 型 已 知 时 ， 强 化 学 习 问 题 可 转化 为 最 优 控制 问题 。 本 节 我 们 
给 出 最 优 控制 的 计算 方法 。 一 般 而 言 ， 最 优 控制 的 效 值 计算 方法 分 为 
间接 法 和 直接 法 。 其 分 类 如 图 3.18 所 示 。 


最 优 控制 的 计算 方法 


` 
3 
法 


智能 


图 3.18 最 优 控制 的 计算 方法 分 类 
最 优 控制 问题 的 数学 形式 化 ， 可 由 方程 (3.6) 和 (3.8) 给 出 。 为 
了 表述 方便 ， 我 们 在 这 里 重复 写 下 最 优 控制 的 数学 形式 化 : 


V(X,t)= min} OLX (ty )oty +f L(x(1),u(t),t)| 
subject to X=f (t, X,U) X(t)=Xo 

1. 什 么 是 间接 法 

所 谓 间 接 法 ， 是 指 首 先 利 用 变 分 法 、 最 大 值 原理 或 者 动态 规划 方 
法 得 到 求解 最 优 问题 的 一 组 微分 方程 (如 本 章 3.1 节 利用 动态 规划 的 方 
法 得 到 了 一 组 偏 微分 方程 ) ， 之 后 ， 利 用 数值 求解 方法 求 出 此 微分 方 
呈 组 的 解 ， 此 解 即 为 原 最 优 问题 的 解 。 如 本 文 介绍 的 微分 动态 规划 的 
方法 就 属于 间接 法 。 

2. 什 么 是 直接 法 

直接 法 与 间接 法 不 同 ， 它 不 需要 首先 利用 最 优 控制 理论 (如 变 分 
原理 ， 最 大 值 原理 或 动态 规划 方法 ) 得 到 一 组 微分 方程 ， 而 是 直接 在 
可 行 控制 集中 搜索 ， 找 到 最 优 的 解 。 直 接 方法 也 分 为 两 类 ， 一 类 是 将 
状态 变量 和 控制 变量 参数 化 ， 将 最 优 控制 问题 转化 为 参数 优化 问题 ; 
第 二 类 是 引入 函数 空间 中 的 内 积 与 泛 函 的 梯度 ， 将 静态 的 优化 方法 推 
广 到 函数 空间 中 。 

在 直接 法 中 ， 最 常用 的 是 伪 谱 的 方法 。 伪 谱 的 方法 是 指 在 正 交 配 
置 点 处 将 连续 最 优 控制 问题 离散 化 ， 通 过 全 局 差 值 多 项 式 逼 近 状 态 量 
和 输入 控制 量 ， 直 接 将 最 优 控制 问题 转化 为 非 线性 规划 问题 ， 再 利用 
非 线 性 规划 问题 的 各 种 优化 方法 求解 。 常 用 的 伪 谱 方法 有 Gauss (高 
Hr) 伪 谱 法 、Legendre ( 勒 让 德 ) 伪 谱 法 、Radau ( 拉 道 ) 伪 谱 法 和 
Chebyshev (JELEK) 伪 谱 法 。 

最 优 控制 方法 在 那些 模型 已 知 的 序 贯 决策 问题 中 已 经 取得 了 很 好 
的 结果 。 若 是 你 面 对 的 问题 可 以 用 精确 的 模型 来 描述 ， 便 可 直接 采用 
最 优 控制 的 方法 。 至 于 采用 最 优 控制 的 哪 种 方法 ， 可 根据 具体 问题 选 
用 。 

可 能 有 人 疑惑 ， 这 本 书 讲 的 是 强化 学 习 ， 怎 么 又 讲 开 了 最 优 控 
制 ， 是 不 是 跑题 了 ? 

没有 跑题 。 

最 优 控制 经 过 几 十 年 的 发 展 ， 已 有 很 多 优秀 的 成 果 。 在 模型 未 知 
的 强化 学 习 算 法 中 ， 这 些 优秀 的 成 果 可 直接 拿 来 应 用 。 如 何 应 用 ? 在 


基于 模型 的 强化 学 习 算 法 中 ， 智 能 体会 先 利 用 交互 数据 拟 合 一 个 模 
型 ， 有 了 模型 ， 我 们 就 可 以 利用 最 优 控制 的 计算 方法 计算 当前 最 优 
解 ， 产 生 当 前 的 最 优 控制 率 。 智 能 体会 利用 当前 的 最 优 控制 率 与 环境 
交互 ， 进 一 步 优 化 行为 。 

结合 最 优 控制 的 强化 学 习 算 法 在 机 器 人 等 领域 取得 了 很 多 优秀 的 
成 果 ， 最 典型 的 是 引导 策略 搜索 的 算法 。 本 书 第 10 章 会 详细 介绍 该 方 
oe 

3.5 习题 


IH ACREIATE IA, TASHA A, MEN KAIMKKE 
什么 。 

2. 高 斯 赛 德尔 迭代 算法 和 雅克 比 达 代 算法 的 区 别 是 什么 。 

3. 利 用 动态 规划 的 方法 求解 如 下 迷宫 问题 : 


4. 基 于 HJB 方 程 分 别 用 数值 法 和 DDP 的 方法 分 别 求解 如 下 带 有 非 完 
整 约束 使 得 机 器 人 路 径 最 优 的 规划 问题 : 


目标 点 
起 始点 
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4 基于 蒙特 卡 罗 的 强化 学 习 方 法 
4.1 基于 蒙特 卡 罗 方法 的 理论 


本 章 我 们 学 习 无 模型 的 强化 学 习 算法 。 

强化 学 习 算 法 的 精 侯 之 一 是 解决 无 模型 的 马尔 科 夫 决策 问题 。 如 
图 4.1 所 示 ， 无 模型 的 强化 学 习 算 法 主要 包括 蒙特 卡 罗 方 法 和 时 间 差 分 
方法 。 本 章 我 们 前 述 蒙特 卡 罗 方 法 。 


序 贯 决策 问题 
L 


马尔 科 夫 决策 过 程 MDP (S,A,P,R,y) 


(S,A,P,R,y) (S,A,P? R? y? ) 
linn 无 模型 的 强化 学 习 方法 


时 间 差 分 方法 
(TD 方法 ) 


图 4.1 强化 学 习 方 法 分 类 

学 习 蒙 特 卡 罗 方 法 之 前 ， 我 们 先 梳理 强化 学 习 的 研究 思路 。 首 
先 ， 强 化 学 习 问 题 可 以 纳入 马尔 科 夫 决策 过 程 中 ， 这 方面 的 知识 已 在 
第 2 章 前 述 。 在 已 知 模型 的 情况 下 ， 可 以 利用 动态 规划 的 方法 (动态 规 
划 的 思想 是 无 模型 强化 学 习 研 究 的 根源 ， 因 此 重点 前 述 ) 解决 马尔 科 
夫 决 策 过 程 。 第 3 章 ， 前 述 了 两 种 动态 规划 的 方法 : RAIA AIBA 
代 。 这 两 种 方法 可 以 用 广义 策略 达 代 方法 统一 : 即 先 进行 策略 评估 ， 
也 就 是 计算 当前 策略 所 对 应 的 值 施 效 ， 再 利用 值 冰 效 改进 当前 策略 。 
无 模型 的 强化 学 习 基 本 思想 也 是 如 此 ， 即 : 策略 评估 和 策略 改善 。 

在 动态 规划 的 方法 中 ， 值 函数 的 计算 方法 如 图 4.2 所 示 。 


Urls’) = s1 Q O k 


图 4.2 (BRISA 
ur(s) = Š r(als) (z: +y% Pv, oj (4.1) 
acA S'ES 


动态 规划 方法 计算 状态 SHAPER AT A T REP, METR 
型 强化 学 习 中 ， 模 型 了 ;s 是 未 知 的 。 无 模型 的 强化 学 习 算 法 要 想 利用 策 
略 评估 和 策略 改善 的 框架 ， 必 须 采 用 其 他 的 方法 评估 当前 策略 (计算 
(BEX) 。 

我 们 回 到 值 永 数 最 原始 的 定义 公式 〈 人 参见 第 2 章 ) : 


vu, (8) =E,[G,|S,=s] = E, È VRS (42) 
k=0 
dx (8) =E, È A” RevegilS: = s,A, =o (4.3) 
k=0 


状态 值 函数 和 行为 值 函 数 的 计算 实际 上 是 计算 返回 值 的 期 望 (S 
见 图 4.2) ， 动 态 规划 的 方法 是 利用 模型 计算 该 期 望 。 在 没有 模型 时 ， 
我 们 可 以 采用 蒙特 卡 罗 的 方法 计算 该 期 望 ， 即 利用 随机 样本 估计 期 
望 。 在 计算 值 函数 时 ， 蒙 特 卡 罗 方法 是 利用 经 验 平均 代替 随机 变量 的 
期 望 。 此 处 ， 我 们 要 理解 两 个 词 ; 经 验 和 平均 。 

首先 来 看 下 什么 是 “经 验 ”。 


当 要 评估 智能 体 的 当前 策略 7 时 ， 我 们 可 以 利用 策略 站 产生 很 多 
次 试验 ， 每 次 试验 都 是 从 任意 的 初始 状态 开始 直到 终止 ， 比 如 一 次 试 
验 (an episode) J S1, 4 有 2 …o57， 计 算 一 次 试验 中 状态 s 处 的 折扣 
回报 返回 值 为 G,(s) =Riit Reet Hy ‘Rr, 
那么 <“ 经验” 就 是 指 利用 该 策略 做 很 多 次 试验 ， 产 生 很 多 幕 数据 
(这 里 的 一 幕 是 一 次 试验 的 意思 ) ， 如 图 4.3 所 示 。 
(s,G,,) (s,G, ) 


S 
一 次 试验 ， 〇 一 e 一 全 一 一 ( 〇 ---- 仿 -二 | sr 


第 二 次 试验 LO_e_O-_e @---O-e- 站 Sr 
| 图 4.3 蒙特 卡 罗 中 的 经 验 

再 来 看 什么 是 "平均 "。 

这 个 概念 很 简单 ， 平 均 就 是 求 均值 。 不 过 ， 利 用 蒙特 卡 罗 方 法 求 
状态 s 处 的 值 疯 数 时 ， 又 可 以 分 为 第 一 次 访问 蒙特 卡 罗 方 法 和 每 次 访问 
蒙特 卡 罗 方 法 。 

第 一 次 访问 蒙特 卡 罗 方 法 是 指 在 计算 状态 RAR, AAA 
每 次 试验 中 第 一 次 访问 到 状态 s 时 的 返回 值 。 如 图 4.3 中 第 一 次 试验 所 
Mm, TARAS 处 的 均值 时 只 利用 Gi ， 因 此 第 一 次 访问 蒙特 卡 罗 方 法 
的 计算 公式 为 
v(s) = Gis (s) 二 + G2 (8) ++ 

N(s) 

每 次 访问 蒙特 卡 罗 方 法 是 指 在 计算 状态 s MABRY, FARA 
访 问 到 状 态 时 AY 回报 返回 值 , 即 
o(s) = Sa FGI ， 根 据 大 数 定律 


uls) >u,(s) as N(s) 一 oo 。 


由 于 智能 体 与 环境 交互 的 模型 是 未 知 的 ， 蒙 特 卡 罗 方 法 是 利用 经 
验 平均 来 估计 值 轴 数 ， 而 能 否 得 到 正确 的 值 函 效 ， 则 取决 于 经 验 
因此 ， 如 何 获 得 充足 的 经 验 是 无 模型 强化 学 习 的 核心 所 在 。 

在 动态 规划 方法 中 ， 为 了 保证 值 辫 数 的 收敛 性 ， 算 法 会 逐个 扫描 
状态 空间 中 的 状态 。 无 模型 的 方法 充分 评估 策略 值 永 数 的 前 提 是 每 个 
状态 都 能 被 访问 到 ， 因 此 ， 在 蒙特 卡 洛 方法 中 必须 采用 一 定 的 方法 保 
证 每 个 状态 都 能 被 访问 到 ， 方 法 之 一 是 探索 性 初始 化 。 

探索 性 初始 化 是 指 每 个 状态 都 有 一 定 的 几率 作为 初始 状态 。 在 学 
习 基于 探索 性 初始 化 的 蒙特 卡 罗 方 法 前 ， 我 们 还 需要 先 了 解 策略 改善 
方法 ， 以 及 便于 进行 迭代 计算 的 平均 方法 。 下 面 我 们 分 别 介绍 蒙特 卡 
罗 策 略 改善 方法 和 可 递增 计算 均值 的 方法 。 

(1) 蒙特 卡 罗 策 略 改善 。 

蒙特 卡 罗 方 法 利用 经 验 平均 估计 荣 略 值 亢 数 。 估 计 出 值 函 数 后 ， 
对 于 每 个 状态 ， 它 通过 最 大 化 动作 值 冰 数 来 进行 策略 的 改善 。 即 


T(s) =argmax q(s,a) 


(2) 递增 计算 均值 的 方法 如 (4.4) 式 所 示 。 
16) = ZG) 


] k—1 
= i (a (s) + DO | 


一 O (s) + (k—1)u,4(@) 


(4.4) 


=v (8) +F (Gels) — v1 (8)) 
如 图 4.4 所 示 是 探索 性 初始 化 蒙特 卡 罗 方 法 的 伪 代 码 ， 需 要 注意 的 


是 : 
第 一 ， 第 2 步 中 ， 每 次 试验 的 初始 状态 和 动作 都 是 随机 的 ， 以 保证 
每 个 状态 行为 对 都 有 机 会 作为 初始 状态 。 在 评估 状态 行为 值 函 数 时 ， 


需要 对 每 次 试验 中 所 有 的 状态 行为 对 进行 估计 ; 
第 二 ， 第 3 步 完 成 策略 评估 ， 第 4 步 完成 策略 改善 。 
[1] ”初始 化 所 有 : 
seS,ae A(s). Q(s,a)< arbitrary, 
m (s)< arbitrary, Re turns (s,a)< empty list 
[2] Repeat: 
随机 选择 SES, A4 EACS) , MiA FLER V 


生成 一 个 实验 (episode) ， 对 每 对 在 这 个 实验 中 出 现 
的 状态 和 动作 ，s, a: 策略 评估 
G 二 s,a 第 一 次 出 现 后 的 回报 

将 G 附 加 于 回报 Returns(s, a) 上 


Q(s,a) 4+ average(Retas(s,a)) 对 回报 取 均 值 


[4] ”对 该 实验 中 的 每 一 个 s: 
a(s)<argmax,Q(s,a) ”策略 改进 
图 4.4 探索 性 初始 化 蒙特 卡 罗 方 法 
我 们 再 来 讨论 一 下 探索 性 初始 化 。 
探索 性 初始 化 在 迭代 每 一 幕 时 ， 初 始 状 态 是 随机 分 配 的 ， 这 样 可 
以 保证 迭代 过 程 中 每 个 状态 行为 对 都 能 被 选中 。 它 缠 含 着 一 个 假设 : 
假设 所 有 的 动作 都 被 无 限 频 繁 选 中 。 对 于 这 个 假设 ， 有 时 很 难 成 立 ， 
或 无 法 完全 保证 。 
我 们 会 问 ， 如 何 保证 在 初始 状态 不 变 的 同时 ， 又 能 保证 每 个 状态 
行为 对 可 以 被 访问 到 ? 
答 : 精心 设计 你 的 探索 策略 ， 以 保证 每 个 状态 都 能 被 访问 到 。 
可 是 如 何 精心 地 设计 探索 策略 ?符合 要 求 的 探索 策略 应 该 是 什么 
样 的 ? 
答 : 策略 必须 是 温和 的 ， 即 对 所 有 的 状态 s 和 a 满足 : (als) >0 


。 也 就 是 说 ， 瘟 和 的 探索 策略 是 指 在 任意 状态 下 ， 采 用 动作 集中 每 个 
动作 的 概率 都 大 于 零 。 上 典型 的 温和 策略 是 a 一 soft 策略 : 


ae if a=argmax,Q(s,a) 
T(als) 全 |A(s)| (4.5) 
AG) if a#argmax,Q(s,a) 


根据 探索 策略 (行动 策略 ) 和 评估 的 策略 是 否 为 同一 个 策略 ， 蒙 
特 卡 罗 方 法 又 分 为 on-policy 和 off-policy 两 种 方法 。 

若 行 动 策 略 和 评估 及 改善 的 策略 是 同一 个 策略 ， 我 们 称 为 on- 
policy， 可 翻译 为 同 策略 。 

各 行动 策略 和 评估 及 改善 的 策略 是 不 同 的 策略 ， 我 们 称 为 off- 
policy， 可 翻译 为 异 策略 。 

接 下 来 我 们 重点 理解 这 on-policy 方 法 和 off-policy 方 法 。 

(1) 同 策略 。 

同 策略 (on-policy) 是 指 产生 数据 的 策略 与 评估 和 要 改善 的 策略 是 
同一 个 策略 。 比 如 ， 要 产生 数据 的 策略 和 评估 及 要 改善 的 策略 都 是 
e— soft 策略。 其 伪 代 码 如 图 4.5 所 示 。 


[1] 初始 化 所 有 :Se S,ae A(s),O(s,a) < arbitrary 
Returns (s,a)< empty list 
a (s)< arbitrary -soft RMK, 
Repeat: 
[2] 从 5,, 4 开始 以 策略 元 生成 一 次 实验 (episode) , 
[3] 对 每 对 在 这 个 实验 中 出 现 的 状态 和 动作 ，s, a: 
Ge s,a 第 一 次 出 现 后 的 回报 


将 G 附 ijt 于 回报 Ret urns (S, a) 上 策略 评估 
Q(s, a) < average( Returns(s,a)) 对 回报 取 均 值 
[4] 对 该 实验 中 的 每 一 个 s: 策略 改进 
it if a=arg max, O(s,a) 
|A(s) 


t(a\s)< 
—_ if a#argmax, O(s,a) 
| A(s) 


图 4.5 同 策略 蒙特 卡 罗 强 化 学 习 方 法 


图 4.5 中 产生 数据 的 策略 以 及 评估 和 要 改善 的 策略 都 是 = 一 soft 策 
略 。 

(2) RER. RER (off-policy) 是 指 产生 数据 的 策略 与 评估 和 
改善 的 策略 不 是 同一 个 策略 。 我 们 用 7 表示 用 来 评估 和 改善 的 策略 ， 
用 人 表示 产生 样本 数据 的 策略 。 

异 策 略 可 以 保证 充分 的 探索 性 。 例 如 用 来 评估 和 改善 的 策略 7 是 
贪 禁 策略， 用 于 产生 数据 的 探索 性 策略 人 为 探索 性 策略 ， 如 一 soft 
策略 。 

用 于 异 策略 的 目标 策略 和 行动 策略 人 并 非 任意 选择 的 ， 而 是 必 
须 满足 一 定 的 条 件 。 这 个 条 件 是 覆盖 性 条 件 ， 即 行动 策略 人 产生 的 行 
为 覆盖 或 包含 目标 策略 产生 的 行为 。 利 用 式 子 表 示 : 满足 
T (a|s) 0 的 任何 (s,a) 均 满足 4(als) > 0 。 

利用 行为 策略 产生 的 数据 评估 目标 策略 需要 利用 重要 性 采样 方 
法 。 下 面 ， 我 们 介绍 重要 性 采样 。 

我 们 用 图 4.6 描 述 重要 性 采样 的 原理 。 重 要 性 采样 来 源 于 求 期 望 ， 
如 图 4.6 所 示 : 


E[f] = | Fre: (4.6) 


图 4.6 重要 性 采样 


如 图 4.6 所 示 ， 当 随机 变量 z 的 分 布 非常 复杂 时 ， 无 法 利用 解析 的 方 
法 产生 用 于 逼近 期 望 的 样本 ， 这 时 ， 我 们 可 以 选用 一 个 概率 分 布 很 简 
单 ， 很 容易 产生 样本 的 概率 分 布 4(z) ， 比 如 正 态 分 布 。 原 来 的 期 望 可 
变 为 


ELf] = | Fre: 
= fro Bae )dz (4.7) 


~ N aie" ~al) 


定义 重要 性 权重 : w” = ph" Vaz") ， 普 通 的 重要 性 采样 求 积分 
如 方程 〈4.7) 所 示 为 


E[f] = Fe'e) (4.8) 


由 式 (4.7) 可 知 ， 基 于 重要 性 采样 的 积分 估计 为 无 偏 估 计 ， 即 估 
计 的 期 望 值 等 于 真实 的 期 望 。 但 是 ， 基 于 重要 性 采样 的 积分 估计 的 方 
差 无 穷 大 。 这 是 因为 原来 的 被 积 施 数 乘 了 一 个 重要 性 权重 ， 改 变 了 被 
积 函 数 的 形状 及 分 布 。 尽 管 被 积 了 图 数 的 均值 没有 发 生变 化 ， 但 方差 明 
显 发 生 改 变 。 

在 重要 性 采样 中 ， 使 用 的 采样 概率 分 布 与 原 概率 分 布 越 接 近 ， 方 
差 越 小 。 然 而 ， 被 积 函 效 的 概率 分 布 往往 很 难 求 得 、 或 很 奇怪 ， 因 此 
没有 与 之 相似 的 简单 采样 概率 分 布 ， 如 果 使 用 分 布 差别 很 大 的 采样 概 
率 对 原 概率 分 布 进 行 采 样 ， 方 差 会 趋 近 于 无 穷 大 。 一 种 减 小 重要 性 采 
样 积分 方差 的 方法 是 采用 加 权重 要 性 采样 : 


Elf] ~ ote a f(z") (4.9) 


在 异 策 略 方法 中 ， 行 动 策略 即 用 来 产生 样本 的 策略 ， 所 产生 的 
轨迹 概率 分 布 相当 于 重要 性 采样 中 的 9Lz] ， 用 来 评估 和 改进 的 策略 7 
所 对 应 的 轨迹 概率 分 布 为 PLz] ， 因 此 利用 行动 策略 / PP EWR 
数 返 回 值 来 评估 策略 时， 需要 在 累积 立 数 返回 值 前 面 乘 以 重要 性 权 
重 。 

在 目标 策略 7 下， 一 次 试验 的 概率 为 


T—1 
Pr(A,, S441,°°°,; Sr) = | [AlS pSr] Ae) 
k=t 


在 行动 策略 4 下 ， 相 应 的 试验 的 概率 为 


了 一 
Pr(As, Siri Sr) = | | nCAilSi) p (Sr1lS:, Ai) 
k=t 


因此 重要 性 权重 为 
(Ax |S) PCSe+1)S%, A) ra 
T I | | á t | _ T (A,|S;) 
Pt 一 本 一 = (4.10 ) 
kat L(A; | Sz) 
Il L(A, |S;) p (Sk 41/54, An) 
MiBS StS Besa A427: 
T(t) 
y (s) = 二 srop C: (4.11) 


|Z (s)| 


从 1 到 T(t) 的 返回 值 
时 间 t 后 的 第 一 次 终止 时 刻 
r) j 
Dee G, 
V (s) = 一 一 一 一 一 
IZ (s) 
状态 s 被 访问 过 的 所 有 时 刻 的 集合 
图 4.7 普通 重要 性 采样 计算 公式 
现在 举例 说 明 公 式 (4.11) 中 各 个 符号 的 具体 含义 。 
如 图 4.8 所 示 ，t 是 状态 s 访问 的 时 刻 ，T(t) 是 访问 状态 s 相对 应 
的 试验 的 终止 状态 所 对 应 的 时 刻 。T(s) 是 状态 s 发 生 的 所 有 时 刻 集 
Bo HRA, T(4)=7, T5) =19, T(s) = {4,15}. 


s B 回 S CJ 
t=1234567891011 1213 14151617 18 19 


7 (s)={4,15} 1 (4)=7,7(15)=19 
图 4.8 重要 性 采样 公式 举例 解释 
加 权重 要 性 采样 值 钞 效 估计 为 


Dieriy fe G: 
V (s) = Dan” (4.12 ) 
最 后 ， 我 们 给 出 异 策 略 每 次 访问 蒙特 卡 罗 算 法 的 伪 代 码 ， 如 图 4.9 
所 示 。 


[1] 初始 化 ， 对 于 所 有 的 
seS,ae A(s): 
Q(s,a) <— EŠ 
C(s,a)<—0 
m(s) — FART FQH A ERS 
[2] Repeat forever: 
利用 软 策略 人 产生 一 次 实验 : 
a eae Oe Oe 


“T-1> T 


G<O0 


W & l1 
[3] For t =T -1,T -2,---downto0: 
GrG+R, 
C(5,,A)C(S,4)+W 策略 评估 


wW - < 
HS. )(S ,A + — G-O(S,. A 
O(S. 4) = O(8,.4)+ a 7 1G-2(5..4)] 


a(S,)<argmax, O(S,,a) 策略 改善 
如 果 4 = x(S, UE H forf 
a Sa 
u(A,|S,) 
图 4.9 蒙特 卡 罗 方 法 伪 代 码 

注意 : 此 处 的 软 策略 为 一 soft 策略 ， 需 要 改善 的 策略 7 ARE 
策略 。 

总 结 一 下 : 本 节 重 点 讲解 了 如 何 利用 MC 的 方法 估计 值 阅 数 。 与 基 
于 动态 规划 的 方法 相 比 ， 基 于 MC 的 方法 只 是 在 值 永 数 估计 上 有 所 不 
同 ， 在 整个 框架 上 则 是 相同 的 ， 即 评估 当前 策略 ， 再 利用 学 到 的 值 函 
数 进 行 策略 改善 。 本 节 需 要 重点 理解 on-policy 和 off-policy 的 概念 ， 并 
学 会 利用 重要 性 采样 来 评估 目标 策略 的 值 立 数 。 


4.2 统计 学 基础 知识 


Wew 


为 什么 要 讲 统计 学 ? 

我 们 先 看 一 下 统计 学 的 定义 。 统 计 学 是 关于 数据 的 科学 ， 它 提供 
的 是 一 套 有 关 数 据 收集 、 处 理 、 分 析 、 解 释 并 从 数据 中 得 出 结论 的 方 
法 。 


联系 我 们 关于 强化 学 习 算法 的 概念 : 强化 学 习 是 智能 体 通过 与 环 
境 交 互 产生 数据 ， 并 把 从 中 学 到 的 知识 内 化 为 自身 行为 的 过 程 。 学 习 
的 过 程 其实 就 是 数据 的 处 理 和 加 工 过 程 。 尤 其 是 值 闵 数 的 估计 ， 更 是 
利用 数据 估计 真实 值 的 过 程 ， 涉 及 样本 均值 ， 方 差 ， 有 偶 估 计 等 ， 这 
些 都 是 统计 学 的 术语 。 下 面 做 些 简单 介绍 。 

总 体 : 包含 所 研究 的 全 部 数据 的 集合 。 

样本 : 从 总 体 中 抽取 的 一 部 分 元 素 的 集合 。 在 episode 强化 学 习 
中 ,一 个 样本 是 指 一 幕 数据 。 

统计 量 : 用 来 描述 样本 特征 的 概括 性 数字 度量 。 如 样本 均值 ， 样 
本 方差 ， 样 本 标准 差 等 。 在 强化 学 习 中 ， 我 们 用 样本 均值 衡量 状态 值 
KESE 

样本 均值 : 

设 XX1, 头 ，,…, 义 , 为 样本 容量 为 n 的 随机 样本 ， 它 们 是 独立 同 分 布 的 
随机 变量 ， 则 样本 均值 为 


X= etal as ， 样 本 均值 也 是 随机 变量 。 


样本 方差 : 
12X,,Xo,-° X, 为 样本 容量 为 n 的 随机 样本 ， 它 们 是 独立 同 分 布 的 
随机 变量 ， 则 样本 方差 为 
Ce (6-8) t (2) 


n 


无 偏 估计 : 
若 样 本 的 统计 量 等 于 总 体 的 统计 量 ， 则 称 该 样本 的 统计 量 所 对 应 
的 值 为 无 偏 估 计 。 如 总 体 的 均值 和 方差 分 别 为 hk 和 o” 时 ， 若 


B(X) =p, B(3?) =o", WX Aug? 称 为 无 偏 估计 。 


蒙特 卡 罗 积 分 与 随机 采样 方法 [3] : 
蒙特 卡 罗 方 法 常用 来 计算 函数 的 积分 ， 如 计算 下 式 积 分 。 


f f(x)dx (4.13) 


$052 f(x) 的 函数 形式 非常 复杂 ， 则 (4.13) 式 无 法 应 用 解析 的 形 
式 计 算 。 这 时 ， 我 们 只 能 利用 数值 的 方法 计算 。 利 用 数值 的 方法 计算 
(4.13) 式 的 积分 需要 取 很 多 样本 点 ， 计 算 f(7z) 在 这 些 样本 点 处 的 
值 ， 并 对 这 些 值 求 平均 。 那 么 问题 来 了 : 如 何 取 这 些 样本 点 ? 如 何 对 
样本 点 处 的 遂 数 值 求 平均 呢 ? 
针对 这 两 个 问题 ， 我 们 可 以 将 (4.13) 式 等 价 变换 为 
’ f(z) 
T(z) 


其 中 7(7) 为 已 知 的 分 布 。 将 (413) 式 变 换 为 等 价 的 (414) 式 


1 (x) dx (4.14) 


后 ， 我 们 就 可 以 回答 上 面 的 两 个 问题 了 。 

问题 一 : 如 何 取 样本 点 ? 

答 : 因为 "(7) 是 一 个 分 布 ， 所 以 可 根据 该 分 布 进行 随机 采样 ， 得 
到 采样 点 。 


问题 二 : 如 何 求 平均 ? 


f (ai) 


答 : UEDA T (a) 采样 zx; 后 “a 


样本 点 处 的 值 求 均值 : 


2D (4.15) 


以 上 就 是 利用 蒙特 卡 罗 方法 计算 积分 的 原理 。 
我 们 再 来 看 看 期 望 的 计算 。 设 X 表示 随机 变量 ， 且 服从 概率 分 布 
T(Z) ， 计 算 函 数 9(z) 的 期 望 


函数 9(Z) 的 期 望 计算 公式 为 


， 并 对 所 有 


[ona 


利用 蒙特 卡 罗 的 方法 计算 该 式 很 简单 ， 即 不 断 地 从 分 布 T(Z) 中 采 
样 ， 然 后 对 这 些 9(2i) 取 平 均 便 可 近似 9(z) 的 期 望 。 这 也 是 4.1 节 中 估 
计 值 函数 的 方法 。 只 不 过 那里 的 一 个 样本 是 一 个 episode， 每 个 episode 
产生 一 个 状态 值 水 数 ， 蒙 特 卡 罗 的 方法 估计 状态 值 浮 数 就 是 把 这 些 样 
本 点 处 的 状态 值 冰 数 加 起 来 求 平均 ， 也 就 是 经 验 平均 。 

然而 ， 当 目标 分 布 r(zZ) 非常 复杂 或 未 知 时 ， 我 们 无 法 得 到 目标 分 
布 的 采样 点 ， 无 法 得 到 采样 点 就 无 法 计算 (4.15) 式 ， 也 就 无 法 计算 平 
均值 。 这 时 ， 我 们 需要 利用 统计 学 中 的 各 种 采样 技术 。 

常用 的 采样 方法 有 两 类 。 第 一 类 是 指定 一 个 已 知 的 概率 分 布 p(2) 
用 于 采样 ， 指 定 的 采样 概率 分 布 称 为 提议 分 布 。 这 类 采样 方法 包括 拒 
绝 采 样 和 重要 性 采样 。 此 类 方法 只 适用 于 低 维 情况 ， 针 对 高 维 情况 常 
采用 第 二 类 采样 方法 ， 即 马尔 科 夫 链 蒙 特 卡 罗 的 方法 。 该 方法 的 基本 
原理 是 从 平稳 分 布 为 T 的 马尔 科 夫 链 中 产生 非 独立 样本 。 下 面 我 们 简 
单 介绍 这 些 方法 。 

(1) 拒绝 采样 。 

当 目标 分 布 r(zZ) 非常 复杂 或 未 知 时 ， 无 法 利用 目标 分 布 给 出 采样 
点 ， 那 么 怎么 办 呢 ? 一 种 方法 是 采用 一 个 易于 采样 的 提议 分 布 P(7) ， 
如 高 斯 分 布 进行 采样 。 可 是 ， 如 果 用 提议 分 布 P(7X) 采样 ， 那 么 所 产生 
的 样本 服从 提议 分 布 p(7x) 而 不 服从 目标 分 布 7(7Y) 。 所 以 ， 为 了 得 到 
符合 目标 分 布 T(7) 的 样本 ， 需 要 加 工 由 提议 分 布 P(X) 得 到 的 样本 。 
接收 符合 目标 分 布 的 样本 ， 拒 绝 不 符合 目标 分 布 的 样本 。 

(2) 重要 性 采样 。 

重要 性 采样 我 们 已 经 在 4.1 节 做 了 比较 详细 的 介绍 。 

(3) MCMC 方 法 。 


MCMC 方 法 被 视 为 二 十 世纪 Top 10 的 算法 。MCMC 方 法 全 称 为 马 
尔 科 夫 链 蒙特 卡 罗 方 法 。 当 采样 空间 的 维 数 比较 高 时 ， 拒 绝 采 样 和 重 
要 性 采样 都 不 实用 。MCMC 采 样 的 方法 原理 与 拒绝 采样 、 重 要 性 采样 
的 原理 有 本 质 的 区 别 。 拒 绝 采 样 和 重要 性 采样 利用 提议 分 布 产生 样本 
点 ， 当 维 数 很 高 时 难以 找到 合适 的 提议 分 布 ， 采样 效率 差 。MCMC 的 
方法 则 不 需要 提议 分 布 ， 只 需要 一 个 随机 样本 点 ， 下 一 个 样本 会 由 当 
前 的 随机 样本 点 产生 ， 如 此 循环 源源 不 断 地 产生 很 多 样本 点 。 最 终 ， 
这 些 样 本 点 服从 目标 分 布 。 

如 何 通过 当前 样本 点 产生 下 一 个 样本 点 ， 并 保证 如 此 产生 的 样本 
服从 原 目标 分 布 呢 ? 

它 背 后 的 定理 是 : 目标 分 布 为 马 氏 链 平稳 分 布 。 那 么 ， 何 为 马 氏 
链 平稳 分 布 ? 
简单 说 就 是 该 目标 分 布 存 在 一 个 转移 概率 矩阵 了 ， 且 该 转移 概率 
满足 : 


TO) =X TOP; t 是 方程 rP =r 的 唯一 非 负 解 。 


HERRE P 满足 上 述 条 件 时 ， 从 任意 初始 分 布 7o 出 发 ， 经 过 一 
PEAY EIA, DHT 都 会 收敛 到 目标 分 布 X 。 因 此 ， 假 设 我 们 已 经 知 
道 了 满足 条 件 的 状态 转移 概率 和 矩阵 已 ， 那 么 我 们 只 要 给 出 任意 一 个 初 
始 状态 To ， 则 可 以 得 到 一 个 转移 序列 Zo,Z EnEn o MR 
马 氏 链 在 第 n 步 已 经 收敛 到 目标 分 布 z ， 那 么 我 们 就 得 到 了 服从 目标 
分 布 T 的 样本 ZnZn+1 6 

现在 问题 转化 为 寻找 与 目标 分 布 相对 应 的 转移 概率 PP ， 那 么 如 何 
构造 转移 概率 呢 ? 

转移 概率 P 和 分 布 T(Z) 应 该 满足 细致 平稳 条 件 。 所 谓 细致 平稳 条 
件 ， 即 

(0Ps=n(D Ps forall i,j 


接 下 来 ， 如 何 利用 细致 平衡 条 件 构造 转移 概率 呢 ? 
我 们 可 以 这 样 考虑 : 加 入 已 有 的 一 个 转移 矩阵 为 Q 的 马 氏 链 ， 这 样 
任意 选 的 转移 矩阵 通常 情况 下 并 不 满足 细致 平衡 条 件 ， 也 惑 是 


paii) £p) Gi) 
既然 不 满足 ， 我 们 就 可 以 改造 9(i,j) ， 使 之 满足 。 改 造 的 方法 是 
加 入 一 项 Qa(i,j) 使 得 
pigli jali j) =pl ida, i) 
问题 是 如 何 取 Q(i,j) 呢 ? 一 个 简单 的 想法 是 利用 式 子 的 对 称 性 ， 
即 
a(i, j) =p) Gi), a,i) =p@aGsp 
Hha(t,j) 被 称 为 接受 率 。 
MCMC 采 样 算法 可 总 结 为 以 下 步骤 。 
O 初始 化 马 氏 链 初 始 状态 和 o 一 Lo ; 
@ 对 t+ 三 0,1,2,… ， 循 环 以 下 第 @~@ 步 ， 不 断 采 样 ; 
@ 第 时 刻 的 马 氏 链 状态 为 X, =2,, R¥y~a(alz,) ; 
© 从 均匀 分 布 中 采样 4~Uniform10,1]; 
© mRu<a(z,y) 二 p(y)q(ziy) ， 则 接受 转移 zw y ， 即 下 
一 时 刻 的 状态 Xy 5 
否则 不 接受 转移 ， 即 六:+1 二 t 。 


为 了 提高 接受 率 ， 使 得 样本 多 样 化 ，MCMC 的 第 5 行 接受 率 通常 可 
改写 为 


2G = ming PV. i} ， 采 样 这 种 接受 率 的 算法 称 为 
p(x.) p(y|a:) 


Metropolis-Hastings 算 法 。 
4.3 基于 Python 的 编程 实例 
在 这 一 节 中 ， 我 们 用 Python 和 蒙特 卡 罗 方 法 解决 机 器 人 找 金 币 的 问 


题 。 

蒙特 卡 罗 方 法 解决 的 是 无 模型 的 强化 学 习 问 题 ， 基 本 思想 是 利用 
经 验 平均 代 蔡 随机 变量 的 期 望 。 因 此 ， 利 用 蒙特 卡 罗 方 法 评估 策略 应 
该 包括 两 个 过 程 : 模拟 和 平均 。 

模拟 就 是 产生 采样 数据 ， 平 均 则 是 根据 数据 得 到 值 六 数 。 下 面 我 
们 以 利用 蒙特 卡 罗 方 法 估计 随机 策略 的 值 冰 数 为 例 做 详细 说 明 。 

1. 随 机 策略 的 样本 产生 : 模拟 

图 4.10 为 蒙特 卡 罗 方 法 的 采样 过 程 。 该 采样 水 数 包括 两 个 大 循环 ， 
第 一 个 大 循环 表示 采样 多 个 样本 序列 ， 第 二 个 循环 表示 产生 具体 的 每 
个 样本 序列 。 需 要 注意 的 是 ， 每 个 样本 序列 的 初始 状态 都 是 随机 的 。 
因为 评估 的 是 随机 均匀 分 布 的 策略 ， 所 以 在 采样 的 时 候 ， 动 作 都 是 根 
据 随机 函数 产生 的 。 每 个 样本 序列 包括 状态 序列 ， 动 作 序列 和 回报 序 
列 。 


蒙特 卡 罗 样 本 采集 


def gen_randompi_sample(self, num): 
state sample 
action sample 
reward sample 
for i in range(num): 


s_ tmp | 随机 初始 化 每 回合 的 初始 状态 
a tmp = [] 
r_tmp = [] “ 
s = self. stateslint (random. random() * len(self. states) ) ] 
t = False i | A 
while False = t; * 产生 一 个 状态 序列 ， 如 81 一 82 一 83 > S7 模拟 
a .actions[int (random. random() * len( . actions) ) |] 
t, sl, r = . transform(s, a) 
s_tmp. append (s) 


r tmp. append (r) 
a tmp. append (a) 
s=sl 
state sample. append(s tmp) * 样本 包含 多 个 个 状态 序列 
reward sample. append (r_ tmp) 
action sample. append(a tmp) 
return state sample, action sample, reward sample 


图 4.10 蒙特 卡 罗 样 本 采集 

图 4.11 为 蒙特 卡 罗 方 法 进行 策略 评估 的 Python 代码 实现 。 该 函数 需 
要 说 明 的 地 方 有 三 处 。 

第 一 处 : 对 于 每 个 模拟 序列 逆向 计算 该 序列 的 初始 状态 处 的 累积 
回报 ， 也 就 是 说 从 序列 的 最 后 一 个 状态 开始 往 前 依次 计算 ， 最 终 得 到 
初始 状态 处 的 累积 回报 为 G ， 计 算 公 式 为 Gi 二 Riri HYG 

第 二 处 : 正 向 计算 每 个 状态 所 对 应 的 囚 积 尔 数 ， 计 算 公 式 为 
Gi = (Gi — Rist) /Yo 

第 三 处 : 求 均值 ， 即 累积 和 对 该 状态 出 现 的 次 数 求 均值 。 相 应 于 
第 1 节 中 的 每 次 访问 蒙特 卡 罗 方 法 。 

图 (4.10) 和 图 (4.11) 中 的 Python 代 码 合 起 来 组 成 了 基于 蒙特 卡 
罗 方 法 的 评估 方法 。 下 面 ， 我 们 实现 基于 蒙特 卡 罗 的 强化 学 习 算 法 。 

如 图 4.12 和 图 4.13 所 示 为 蒙特 卡 罗 方 法 的 伪 代 码 ， 其 中 关键 代码 在 
图 4.13 中 实现 。 比 较 图 4.13 和 蒙特 卡 罗 策 略 评估 图 4.11， 我 们 不 难 发 


M, SES sat) RIANA ab e-greedy Ri 
蒙特 卡 罗 评 估 


def mc(gamma, state sample, action sample, reward sample): 
vfunc = dict () 
nfune = dict () 
for s in states: 
vfunc[s] = 0.0 
nfune|s} = 0.0 


for iterl in range(len(state sample)): 逆向 计算 初始 状态 的 累积 回报 
G= 0.0 a 
第 一 处 : — for step in range(len(state sample[iterl])-1,-1,-l): $1 > $82 78 > S7 
G += gamma 


Si G += reward sample[literl] [step] 正 向 计算 每 个 状态 处 的 累积 回报 
第 二 处 : ~ for step in range(len(state_sampleliterl])): -一 

S = state sample[iterl][step] ~ 

vfunc[s] += G 

nfune[s] += 1.0 


G = reward sampleliter1!] [step] 
_ G /= gamma 
第 三 处 :一 for s in states: ` 每 个 状态 处 求 经 验 平均 


if nfunc[s] > 0.000001: 
vfunc[s] /= nfunc[s] 
print ( me’) 
print (vfunc) 
return (vfunc) 


图 4.11 蒙特 卡 罗 策 略 评估 
如 图 4.12 和 图 4.13 所 示 是 蒙特 卡 罗 强 化 学 习 算 法 的 Python 实现 。 


A 蒙特 卡 罗 方法 擅 代 码 
(1) ”初始 化 所 有 : 


seS,ae A(s),0(s,a)¢ arbitrary, 


z (s) arbitrary, Returns (s,a) + empty list 


[2] Repeat: 


生成 一 个 实验 (epise 
的 状态 和 动作 ，s, a: 


Gs,a 每 次 出 现 后 的 回报 
将 G 附 加 于 回报 Returns(s, a) E 
Q(s,a) + average(Returns(s,aq)) 对 回报 取 均 值 
4] 。 对 该 实验 中 的 每 一 个 8: 


n (s) arg max, Q(s,a) 


[3] 


me 


策略 改进 


随机 选择 LESA EAlS) ， 从 Su, 开始 以 策略 
e) ， 对 每 对 在 这 个 实验 中 出 现 


蒙特 卡 罗 方法 Python 代码 


def me(num iterl, epsilon): 
x=[] 
= 
n =dict() 
qfune = dict() 
for s in states: 
for a in actions: 
qfunc[" %d_%s"%(s,a)] = 0.0 
n["%d_%s"%(s,a)] = 0.001 
for iter] in range(num_iterl): 
x.append(iter!) 
y.append(compute_error(qfunc)) 
s_sample = [] 
a_sample = [] 
r_sample = [] 
s = states[int(random.random() * len(states))] 
t= False 
count = 0 


图 4.12 蒙特 卡 罗 方 法 伪 代 码 及 Python 代码 


] 蒙特 卡 罗 方法 伪 代码 
[由 “初始 化 所 有 ， 


seS,ae A(s),O(s,a) € arbitrary, 


a (s) 4 arbitrary, Returns (s,a) + empty list 
[2] Repeat: 
随机 选择 LESA EALS) , MSA 开始 以 策略 


生成 一 个 实验 (episode) ， 对 每 对 在 这 个 实验 中 出 现 
的 状态 和 动作 ，s, a: 

Gs,a 每 次 出 现 后 的 回报 

将 G 附 加 于 回报 Returns(s, a) 上 


Q(s,a) + average(Returns(s,a))¥t RRS {A 


[4] ”对 该 实验 中 的 每 一 个 s: 
a(s) arg max, O(s,a) 策略 改进 


蒙特 卡 罗 方法 python 代 码 续 
while False == t and count < 100: 

a = epsilon_greedy(qfunc, s, epsilon) 

t, sl, r = grid.transform(s,a) 
s_sample.append(s) 

r_sample.append(r) 

a_sample.append(a) 


for i in range(len(s_sample)-1, -1, -1): 
g *= gamma 
g+=r_sampleļi] 
for i in range(len(s_sample)): 
key = "%d_%s"%(s_samplefi], a_sample[i]) 
n{key] += 1.0 


~*qfune[key] = (qfune{key] * (n[key]-1) + g) / n{key] 


g -=r_sample{i] 
g /= gamma 


return qfunc 


图 4.13 蒙特 卡 罗 方法 伪 代 码 及 Python 代码 
4.4 习题 


1. 蒙 特 卡 罗 方 法 可 以 解决 哪些 强化 学 习 问题 。 
2. 什 么 是 同 策略 (on-policy) ， 什 么 是 异 策略 (off-pilicy) ， 两 者 
的 优 缺 点 各 是 什么 。 


3. 利 用 蒙特 卡 罗 方 法 求解 下 列 迷 宫 问 题 : 


4. 手 动 编写 正 态 分 布 的 随机 样本 生成 方法 。 


5 基于 时 间 差 分 的 强化 学 习 方 法 
5.1 基于 时 间 差 分 强化 学 习 算 法 理论 讲解 
第 4 章 我 们 已 经 前 述 了 无 模型 强化 学 习 最 基本 的 方法 蒙特 卡 罗 方 
法 。 本 章 我 们 前 述 另 外 一 个 无 模型 的 方法 : 时 间 差 分 方法 。 
时 间 差 分 (Temporal-Difference， 简 称 TD) 方法 〈 如 图 5.1 所 示 ) 
是 另 一 种 无 模型 强化 学 习 方 法 ， 也 是 强化 学 习 理 论 中 最 核心 的 内 容 。 
与 动态 规划 的 方法 和 蒙特 卡 罗 的 方法 相 比 ， 时 间 差 分 方法 的 主要 不 同 
ET (BRA Hit. 
g 


马尔 科 夫 决策 过 程 MOP (S,A,P,R,y) 


(S,A,P? R? y? ) 


无 模型 的 强化 学 习 方 法 


(S,A,P,R,y) 


基于 模型 的 动态 规划 方法 


图 5.1 强化 学 习 方 法 分 类 
如 图 5.2 所 示 为 用 动态 规划 的 方法 计算 值 孙 数 。 


图 5.2 用 动态 规划 方法 计算 值 轴 数 
下 面 的 式 (5.1) 是 值 轴 数 估 计 的 计算 公式 ， 从 中 可 以 看 到 ， 用 动 
态 规划 方法 (DP) 计算 值 图 数 时 用 到 了 当前 状态 s 的 所 有 后 继 状 态 S 处 
的 值 浆 数 。 值 水 数 的 计算 用 到 了 bootstrapping 的 方法 。 所 谓 bootstrpping 
意 是 指 自 举 ， 此 处 是 指 当 前 值 水 数 的 计算 用 到 了 后 继 状 态 的 值 疝 
数 。 即 用 后 继 状 态 的 值 函 数 估计 当前 值 玫 数 。 要 特别 注意 的 是 ， 此 处 
后 继 的 状态 是 由 模型 公式 p(s',7|91,4a) 计算 得 到 的 。 由 模型 公式 和 动作 


集 ， 可 以 计算 状态 s 所 有 的 后 继 状态 $”。 当 没 有 模型 时 ， 后 继 状 态 无 法 
全 部 得 到 ， 只 能 通过 试验 和 采样 的 方法 每 次 试验 得 到 一 个 后 继 状 态 s’。 


V(S,) SE, [Ri + W(Si41)] =F (als) dv s| r|S;,a) [r+ W(s' (5.1) 


无 模型 时 ， 我 们 可 以 采用 蒙特 卡 罗 的 方法 利用 经 验 平均 来 估计 当 
前 状态 的 值 函 数 ， 用 它 计算 值 亢 数 的 过 程 如 图 5.3 所 示 。 


图 5.3 用 蒙特 卡 罗 方 法 计算 值 阔 数 

蒙特 卡 罗 方 法 利用 经 验 平均 估计 状态 的 值 永 数 。 此 处 的 经 验 是 指 

一 次 试验 ， 而 一 次 试验 要 等 到 终止 状态 出 现 才 经 aR (参见 图 5: 3) s 公 
st (5.2) 中 的 Gi 是 状态 >, 处 的 折扣 累积 回报 值 。 


V(S,) —V(S;) +a(G,—V(S;)) (5.2) 


相 比 于 动态 规划 的 方法 ， 蒙 特 卡 罗 的 方法 需要 等 到 每 次 试验 结 
束 ， 所 以 学 习 速度 慢 ， 学 习 效 率 不 高 。 通 过 对 两 者 的 比较 ， 我 们 很 目 


然 地 会 想到 : 能 不 能 借鉴 动态 规划 中 bootstrapping 的 方法 ， 在 试验 未 结 
束 时 就 估计 当前 的 值 函 数 呢 ? 

答案 是 肯定 的 ， 这 是 时 间 差 分 方法 的 精髓 。 时 间 差 分 方法 结合 
蒙特 卡 罗 的 采样 方法 〈 即 做 试验 ) 和 动态 规划 方法 的 bootstrapping (F 
用 后 继 状 态 的 值 永 数 估计 当前 值 函 数 ) ， 它 的 计算 过 程 如 图 5.4 所 示 。 


图 5.4 用 时 间 差 分 方法 计算 值 函 数 
用 时 间 差 分 方法 (TD) 将 值 邹 数 的 公式 更 新 为 
V(S) V (8) a(R + W(Si41) —V(S)) (5.3) 


BHR + WV (Si) MA TD 目标 , 5 (5.2) 中 的 Gi 相对 应 ， 
AS A [al Z Mh ETD EB tn Fl AT bootstrapping FH 7K (Att 4 A1 1A K BX. 
0: = Ri + W (S141) = V (S) 称 为 TD 偏差 。 


下 面 我 们 从 原始 公式 出 发 ， 了 解 动态 规划 (DP) 、 蒙 特 卡 罗 方 法 
(Mc) 和 时 间 差 分 方法 (TD) 的 不 同 之 处 。 

图 5.5 是 用 三 种 方法 估计 值 轴 数 的 异同 点 。 从 中 可 以 看 到 ， 蒙 特 卡 
罗 的 方法 使 用 的 是 值 水 数 最 原始 的 定义 ， 该 方法 利用 所 有 回报 的 累积 
Ahi BAM, 动态 规划 方法 和 时 间 差 分 方法 则 利用 一 步 预测 方法 计 
算 当 前 状态 值 函 数 ， 它 俩 的 共同 点 是 利用 了 bootstrapping 方法 ; 不 同 的 
是 ， 动 态 规划 方法 利用 模型 计算 后 继 状 态 ， 时 间 差 分 方法 利用 试验 得 
到 后 继 状 态 。 


we MC: 利用 采样 平均 回报 逼近 期 望 
v, (s )=E, [G, S, = s] 


=E. Bia ra 15, = s| 
= Ee, +y r Riser |S, -| 


= E, [R +70, (Sn)|S, =s] 


DP: 期 望 值 由 模型 来 提供 ， 但 是 利 


TD: 联合 了 MC 和 DP， 采 样 期 望 值 ， 
并 利用 真 值 的 当前 估计 值 "(5,.,) 


用 真 值 的 当前 估计 值 V (S) 


图 5.5 三 种 方法 的 异同 
从 统计 学 的 角 来 看 ， 蒙 特 卡 罗 方 法 (MC) 和 时 间 差 分 方法 
(TD) 都 是 利用 样本 估计 值 疯 数 的 方法 ， 哪 种 更 好 呢 ? 既然 都 是 统计 
方法 ， 我 们 就 可 以 从 期 望 和 方差 两 个 指标 对 比 两 种 方法 。 

首先 我 们 先 看 看 蒙特 卡 罗 方 法 。 

蒙特 卡 罗 方 法 中 的 返回 值 G, 二 Ri 十 YRi42 十 … 十 7 ‘Rr, E 
期 望 便 是 值 疯 数 的 定义 ， 因 此 蒙特 卡 罗 方 法 是 无 偏 估计 。 但 是 ， 蒙 特 
卡 罗 方 法 每 次 得 到 的 Gi 值 要 等 到 最 终 状 态 出 现 ， 在 这 个 过 程 中 会 经 历 
很 多 随机 的 状态 和 动作 ， 每 次 得 到 的 Gi 随机 性 很 大 ， 因 此 尽管 期 望 等 
于 真 值 ， 但 方差 无 穷 大 。 

我 们 再 来 看 下 时 间 差 分 方法 。 

时 间 差 分 方法 的 TD 目标 为 Rii 十 W (Si41) ; EV (S241) 采用 真 
实 值 ， 则 TD 估计 也 是 无 偏 估计 ， 然 而 在 试验 中 V (S141) 用 的 也 是 估计 
值 ， 因 此 时 间 差 分 估计 方法 属于 有 偏 估 计 。 与 蒙特 卡 罗 方 法 相 比 ， 时 
间 差 分 方法 只 用 到 了 一 步 随 机 状态 和 动作 ， 因 此 TD 目标 的 随机 性 比 蒙 
特 卡 罗 方 法 中 的 Gi 要 小 ， 相 应 的 方差 也 比 蒙特 卡 罗 方 法 中 的 方差 小 。 

时 间 差 分 方法 包括 同 策略 的 Sarsa 方 法 和 异 策略 的 Qlearning 方 法 。 
如 图 5.6 所 示 为 同 策略 Sarsa 强 化 学 习 算 法 ， 需 要 注意 的 是 方 框 中 代码 表 
示 同 策略 中 的 行动 策略 和 评估 的 策略 都 是 e-greedy 策 略 。 与 蒙特 卡 罗 方 
AFA, CHBKME AA 


1. 初始 化 Q(s,a),Vs E S, a E A(S) ESM, y 


2. Repeat: 
给 定 起 始 状态 s， 并 根据 6 仿效 策略 在 状态 s 选择 动作 a 。 行动 策略 和 评估 策略 都 是 已 贫 棕 策略 
Repeat (对 于 一 幕 的 每 一 步 ) 
(a) 根据 仿 林 策略 在 状态 s 选择 动作 a ， 得 到 回报 ”和 下 二 个 状态 *，， 在 状态 s 


根据 € 贪 禁 策 略 得 到 动作 a， 
(b) O(s.a)eOls,a)+a [r+70(s'.a')-O(s,a)] 


(e) s=s , aza' 
Until s 是 终止 状态 
Until 所 有 的 0(s, a) Beak 


3， 输 出 最 终 策略 : T(s] = argmax Q(s, a) 


图 5.6 同 策略 Sarsa 强 化 学 习 算法 
如 图 5.7 所 示 为 异 策略 的 Qlearning 方 法 。 与 Sarsa 方 法 的 不 同 之 处 在 
于 ，Qlearning 方 法 是 异 策 略 的 方法 。 即 行动 策略 采用 s-greedy 策 略 ， 而 
目标 策略 为 贪 梦 策 略 。 


1. 初始 化 Q(s,a), Ws E€ S, a E A(s), 给 定 参 数 g，y 


2. Repeat: 


给 定 起 始 状态 s， 并 根据 5 贪 禁 策 略 在 状态 s 选择 动作 a 
Repeat (对 于 一 幕 的 每 一 步 ) 行动 策略 为 s, 贪 禁 策 略 


(a) 根据 E 贪 禁 策 略 在 状态 5, 选择 动作 a, o 得 到 回报 入 和 下 一 个 状态 Sri 


(b) (s,.4,)-O(s,.4, )+alr +ymaxQ(5,,,.4)-O(5,,4, ) 
(c) s=s’ , a=a’ 
Until s 是 终止 状态 
Until 所 有 的 Q&(s,o) 收敛 
3， 输 出 最 终 策 略 : m(s) = argmax Q(s, a) 


N 目标 策略 为 贪 禁 策略 


图 5.7 异 策略 Qlearning 
TD 方法 除了 常用 的 Sarsa 方 法 和 Qlearning 方 法 ， 还 包括 TD( 和 ) 方 
法 ， 下 面 我 们 详细 阐述 7Z(A) 方法 的 来 龙 去 脉 。 


MED.41NSS, GEMS, BFP F—-TRANE 
PEK, FRA CAPE, AEM ARSC TRAN ERAREM 
4 BAAS AY (BARE? 

答案 是 肯定 的 ， 那 么 如 何 利 用 公式 计算 呢 ? 

RAGO = Ra tW (Sa) 表示 TD 目标 ， 利 用 第 二 步 值 函数 
来 估计 当前 值 函 数 可 表示 为 G!” 二 Rui 十 YRit2 十 Y3V (S441) © 

以 此 类 推 ， 利 用 第 n 步 的 值 浮 数 更 新 当前 值 疯 数 可 表示 为 

GY = Rigi + VRi+2 qup ye 中 Y V (Sitn) o 

QOE.8Pam AF Fant ERA SABRE. RIB 
视 一 下 刚才 的 结论 : DOA Ane BRR SAAR, mei 
当前 值 轴 数 有 n 种 估计 方法 。 


TDI1-step) TD(2-step) TD(n-step) 


St 
Rea Revi 
Se+1 
a. Rea2 
St+2 i 
G“ 1 


Ge” 
图 5.8 n FM (Ait BK 
哪 种 估计 值 更 接近 真实 值 呢 ? 
我 们 并 不 知道 ， 但 是 可 否 利 用 加 权 的 方法 融合 这 n 个 估计 值 ? BD 
TD(A) 的 方法 [4 。 


在 Gs” 前 乘 以 加 权 因 子 (1 一 和 ) 和 和 ”， 之 所 以 要 乘 以 加 权 ， 原 因 
在 于 
GN 0-A += NYG 
NAA (5.4) 
=V (5,) 

AFG) 更 新 当前 状态 的 值 函数 的 方法 称 为 TD( 和 ) 的 方法 。 一 般 
可 以 从 两 个 视角 理解 TD (A) 。 

如 图 5.9 所 示 为 TD( 和 ) 方法 的 前 向 视角 解释 。 假 设 一 个 人 坐 在 状态 


流 上 拿 着 望 BRA 前 方 ， 2 估计 当前 BY 1K AS BY (eX 
时 ， 从 TD(A) 的 定义 中 可 以 看 到 ， 它 需要 用 将 来 时 刻 的 值 函 数 。 也 就 


eit, TDA) 前 向 观 ee ee i 
数 。 
第 一 个 视角 是 前 向 视角 ， 该 视角 也 是 GA 的 定义 。 


Time 


图 5.97 万 (入 ) 的 前 向 视角 
V(S,) —V(S,) +a(GY —V(S,)) (5.4) 


其 中 G7 二 1 一 和 )》 aG., m 
n=1 


: Ross + VRi+2 — +" Rirn HYV (Sin) 


PATDA) 的 前 向 观点 估计 值 函数 时 ， 的 计算 用 到 了 将 来 时 刻 的 


值 函 效 ， 因 此 需要 整个 试验 结束 后 才能 计算 ， 这 和 蒙特 卡 罗 方 法 相 
似 。 是 否 有 茶 种 更 新 方法 不 需要 等 到 试验 结束 就 可 以 更 新 当前 状态 的 
(BEX? 


有 ! 这 种 增 量 式 的 更 新 方法 需要 利用 TD( 和 ) 的 后 向 观点 。 
如 图 5.10 所 示 为 TD (A) 后 向 观点 示意 图 。 人 骑 坐 在 状态 流 上 ， 手 


里 拿 着 话 简 ， 面 朝 已 经 经 历 过 的 状态 流 ， 获 得 当前 回报 并 利用 下 一 个 
状态 的 值 沙 数 得 到 TD 偏差 后 ， 此 人 会 向 已 经 经 历 过 的 状态 喊话 ， 告 诉 
这 些 状 态 处 的 值 函 数 需要 利用 当前 时 刻 的 TD 偏差 更 新 。 此 时 过 往 的 每 
个 状态 值 函 数 更 新 的 大 小 应 该 与 距离 当前 状态 的 步 数 有 关 。 假 设 当前 
状态 为 % ，TD 偏 差 为 0 ， 那 么 %-:1 处 的 值 函 数 更 新 应 该 乘 以 一 个 衰减 


AFNA ， 状 态 s:-2 处 的 值 函数 更 新 应 该 乘 以 (YA)”， 以 此 类 推 。 


图 5.10 ”TD (A 和) 的 后 向 观点 
TD (A) 更 新 过 程 如 下 。 
首先 ， 计 算 当 前 状态 的 TD 偏差 : = Ri t W (Si+) —V(S;) 


VAEi-1; if s# 8, 
YAE: +1, if s=s8, 


min, WFKAPAAHSTKAs, E A BHR: 
V (s)V (s) +06,E;(s) 


BH E, (s) 称 为 适合 度 轨迹 。 


其 次 ， 更 新 适合 度 轨迹 : Ei(s) = { 


现在 我 们 比较 一 下 7Z(A) 的 前 向 观点 和 后 向 观点 的 异同 。 

(1) 前 向 观点 需要 等 到 一 次 试验 之 后 再 更 新 当前 状态 的 值 函 数 ; 
后 向 观点 不 需要 等 到 值 函 数 结束 后 再 更 新 值 玫 数 ， 而 是 每 一 步 都 在 更 
新 值 函 数 ， 是 增 量 式 方 法 。 

(2) 前 向 观点 在 一 次 试验 结束 后 更 新 值 图 数 时 ， 更 新 完 当 前 状态 
的 值 函 数 后 ， 此 状态 的 值 函 数 就 不 再 改变 。 后 向 观点 在 每 一 步 计 算 完 
mea 其 他 状态 的 值 函 数 需要 利用 当前 状态 的 TD 误差 更 

(3) 在 一 次 试验 结束 后 ， 前 向 观点 和 后 向 观点 每 个 状态 的 值 函 数 
的 更 新 总 量 是 相等 的 ， 都 是 G7 。 

为 了 说 明 前 向 观点 和 后 向 观点 的 等 价 性 ， 我 们 从 公式 上 对 其 进行 
严格 地 证 明 。 

首先 ， 当 入 二 0 时， 只 有 当前 状态 值 更 新 ， 此 时 等 价 于 之 前 说 的 
TD 方法 。 所 以 TD 方法 又 称 为 TD (0) 方法 。 

其 次 ， 当 入 王 1 时 ， 状 态 s 值 函数 总 的 更 新 与 蒙特 卡 罗 方 法 下 的 更 
新 总 数 相同 : 


he Orsi + 7 Ee te by a 
= Ri +W (Si+) — VS) 

+ Riso HY’V (Si42) — W (Si) 

Ty Raa tY V (Si43) ~Y V Bisa) 


+ 7 1 Rr 十 ay (Sa) — yTy (Sr) 
对 于 一 般 的 入 ， 前 向 观点 等 于 后 向 观点 : 


Gè —V (S) = 
-V (6) + I—NN (Reg HW (Si+1)) 
+ (1—A)XN (Rer + Rira tY’ V (Sita)) 
+ AAN (Rii HYRira t y’ Rira t 7°V (Sira) ) + 
=- V (84) + (YA)? (Rig HW (Sit) — YAV (S441) 
+ (YA) (Ri+2 +W (Si+2) — YAV (Si+2)) 
+ (yA)? (Rizs +W (Sit3) — YAV (Si+3)) 
hanes 
= (YA)? (Rer HW (Sr — V (S:)) 
+ (YA) (Rese +W (Sit2) — V (S141) 
T (yA)? (Riss +W (Sits) —V (Si+2)) pe 
= f, + YAS H (YA) 6 十 … 


最 后 ， 我 们 给 出 Sarsa (A) 算法 的 伪 代 码 ， 如 图 5.11 所 示 。 


1. 初始 化 Q(s.a),Vse5,ae 4A(s), 给 定 参 数 a。y 
2. Repeat: 行动 策略 和 评估 策略 都 是 CR RR 
给 定 起 始 状态 s， 并 根据 6 贪 禁 策 略 在 状态 s 选择 动作 a， 对 所 有 的 seS,ae A(s), E(s,a)=0 
Repeat (对 于 一 幕 的 每 一 步 ) 
(a) 根据 c 全 禁 策 略 在 状态 s 选择 动作 a ， 得 到 回报 r 和 下 一 个 状态 s”， 在 状态 s’ 
根据 & 贪 禁 策 略 得 到 动作 a" 
(b) Jd r+yO(s',a')-O(s,a), E(s,a)<— E(s,a)+1 
(c) SARs ES, aE A(s): Q (s.a) O(s,a)+adE(s,a), E(s,a)¢ yAE(s,a) 
(d) s=s’ , aza’ 
Until s 是 终止 状态 
Until 所 有 的 Q(s,a) 收 全 
3， 输 出 最 终 策略 : 7(s)=are max 0(s,a) 


图 5.11 Sarsa 算 法 的 伪 代 码 
5.2 基于 Python 和 gym 的 编程 实例 


时 间 差 分 方法 和 蒙特 卡 罗 方 法 都 是 无 模型 的 方法 ， 因 此 在 策略 评 
估 时 都 需要 随机 模拟 。 和 第 4 章 介绍 的 蒙特 卡 罗 方 法 一 样 ， 我 们 对 时 间 


差分 的 介绍 也 从 策略 评估 开始 。 基 于 时 间 差 分 方法 的 模拟 与 基于 蒙特 
卡 罗 方 法 的 模拟 类 似 ， 都 需要 从 与 环境 的 交互 中 获取 数据 。 在 做 评估 
时 ， 我 们 假设 已 经 得 到 数据 。 如 图 5.12 所 示 为 时 间 差 分 方法 对 策略 评估 
的 Python 人 代码。 这 里 需要 注意 两 个 地 方 。 

第 一 处 : 在 最 里 层 的 for 循 环 中 ， 处 理 的 是 一 个 时 间 序 列 ， 即 一 幕 
数据 。 

第 二 处 : mD 更 新 A E A 
V (Si) V (S) 十 ac(R +W (Sir) —V(S,)) o 


时 间 差 分 方法 评估 
def td(alpha, gamma, state sample, , reward sample): 
vfunc = dict () 
for s in states: 
vfunc[s] = random. random() 
for iterl in range(len(state sample)): 
第 一 处 ; *for step in range(len(state sample[iterl])) : > 81 —> 8. —> 83 > 87 
s = state_sample[iter1] [step] 
r reward sampleliter] ] [step] 
if len(state_sample[iter1]) l step: 
sl = state sample[iter1] [stept1] 
next v = vfunc[slj 
else: 
next_v = 0.0 
第 二 处 : + vfunc[s] = vfunc[s] + alpha * (r + gamma * next v - vfunc[s]) 


图 5.12 时 间 差 分 方法 对 策略 的 评估 
有 了 策略 评估 ， 再 加 上 策略 改善 ， 就 可 以 构造 出 差分 强化 学 习 算 
法 了 。 图 5.13 是 Sarsa 和 Qlearning 算法 的 伪 代 码 和 Python 代码 ， 我 们 比 
较 它 们 的 异同 点 。 


A 


[2] 


[3] 


[4] 


蒙特 卡 罗 方法 伪 代码 
初始 化 所 有 : 


sé€S,ae A(s) Q(s,a) 4 arbitrary, 
n (s) 4 arbitrary, Returns (s,a) + empty list 
Repeat: 
随机 选择 5, €S,4,€A(S,) , MSA FEUER I 
生成 一 个 实验 (episode) ， 对 每 对 在 这 个 实验 中 出 现 
的 状态 和 动作 ，s,a: “一 
Gs,a 每 次 出 现 后 的 回报 
将 G 附 加 于 回报 Returns(s, a) E 
Q(s,a) + average(Returns(s,aq)) 对 回报 取 均 值 


对 该 实验 中 的 每 一 个 s: 


a(s) -arg max, Q(s,a) 


策略 改进 


、 


蒙特 卡 罗 方法 Python 代码 


def me(num iterl, epsilon): 


n =dict() 
qfunc = dict() 
for s in states: 
for a in actions: 
qfunc["%d_%s"%(s,a)] =().0 
n["%od_%s"%(s,a)] = 0.001 
for iter! in range(num_iter!): 
x.append(iter! ) 
y.append(compute_error(qfunc)) 
s_sample = [] 
a_sample = [] 
r_sample = [] 


™ s = states[int(random.random() * len(states))] 


t= False 
count = 0 


图 5.13 Sarsa 伪 代码 及 Python 实现 
从 Python 实现 中 我 们 看 到 Sarsa 算 法 的 行动 和 评估 策略 都 是 s-greedy 
策略 ， 对 评估 策略 进行 评估 的 方法 是 TD 方法 。 下 面 我 们 提供 异 策 略 的 
Qlearning 算 法 伪 代 码 和 Python 实现 。 
如 图 5.14 所 示 为 Qlearning 算 法 的 伪 代 码 和 Python 实现 。 与 Sarsa 算 法 
不 同 的 是 ，Qlearning 是 异 策略 强化 学 习 算 法 ， 即 行动 策略 为 s-greedy 策 
略 评估 策略 为 贪 楚 策 略 。 


Qleaming 伪 代 码 hta Qlearning python Bt 
\/ def 


y qlearning(num_iter1, alpha, epsilon): 

| 工 初 始 化 Q(s,a)YsES a E A(s), 给 定 参数 a，y while False == t and count < 100: 
2. Repeat: | 行动 策略 为 E REM | 了 = Hecate 
slr = grid.transform(s,a 

ey keyin 

Repeat( 对 于 一 幕 的 每 一 步 ) | qmax = -1.0 

| (a) 根据 E 贪 禁 策 略 在 状态 5, 选择 动作 a 得 到 回报 7 _ foral in actions: 
和 下 一 个 状态 S141 公 if qmax < qfunc["%d_%s"%(s1,a1)]: 


% qmax = qfunc["%od_%s'"%(s1,al)] 
©) 0(s,.4,)O(s,.4,)+a r,+7max O(s,,,a)-O(s,.4) $ keyl = "%d_%s"%(s1,al) 

(c) s=s’, a=a’ FA Spe qfunc[key] = qfunc[key] + alpha * ( \ 

Until s 是 终止 状态 r + gamma * qfunc[key1] - qfunc[key]) 


目标 策略 为 贪 禁 策 略 s =sl 
Until 所 有 的 Q(s, qa) 收敛 


| a greedy(qfunc, s1, epsilon) | 


\、3， 输 出 最 终 策略 : m(s) = argmax Q(s, a) count +=] / 
° Fi return qfunc a 


图 5.14 Qlearning 伪 代码 及 Python 实现 

在 Qleaming 算法 中 ， 最 关键 的 代码 实现 包括 : 行为 值 遂 数 的 表 
ae tener ies RA STAY A ROR, (BRS. FR 
们 一 一 介绍 。 

(1) Qleaming 的 行为 值 水 数 表示 。 

对 于 表格 型 强化 学 习 算 法 ， 值 轴 数 是 一 张 表格 。 对 于 行为 值 函 
数 ， 这 张 表 可 以 看 成 是 二 维 表 ， 其 中 一 维 为 状态 ， 另 一 维 为 动作 。 下 
面 以 机 器 人 找 金 币 为 例 说 明 。 

状态 空间 为 [L，2，3，4，5，6，7，8] 

动作 空间 为 [7 ， e, ’s’, w] 

行为 值 永 数 可 以 用 字典 数据 类 型 来 表示 ， 其 中 字典 的 索引 由 状态 - 
行为 对 来 表示 。 因 此 行为 值 永 数 的 初始 化 为 

qfune = diet) #47 AER BOA gfun 
for s in states: 


we 


for a in actions: 
orno 


key = “d% s%”%(s,a) 
qfun[key] = 0.0 


(2) 探索 环境 的 策略 : epsilon 贪 禁 策略 。 


智能 体 通过 e-greedy 策 略 来 探索 环境 ，e-greedy 策 略 的 数学 表达 式 
为 


a if a=arg max,Q(s,a) 
n (als) +} PAKA 
Aa if a#arg max,Q(s,a) 


该 式 子 的 Python 代码 实现 如 下 。 


def epsilon greedy(qfunc, state, epsilon): 


# 先 找到 最 大 动作 

amax = 0 

key = "Sd_%s"%(state, actions[0]) 

gmax = qfunc[key] 

for i in range(len(actions) ): # 扫 描 动 作 空间 得 到 最 大 动作 值 函 数 
key = "%d %s"%(state, actions[i]) 


q = gfunc[key] 
if qmax < q: 


qmax = q 
amax = i 
# 概 率 部 分 
pro = [0.0 for i in range(len(actions) ) ] 


pro[amax] += 1l-epsilon 
for i in range(len(actions) ): 
pro[i] += epsilon/len (actions) 
## 根 据 上 面 的 概率 分 布 选择 动作 
r = random. random () 
s = 0.0 
for i in range(len(actions) ): 
s += pro[i] 
if s>= r: return actions[i] 
return actions[len (actions)-1] 


(3) 值 函 数 更 新 时 ， 选 择 动作 的 贪 禁 策 略 。 


选择 动作 的 贫 要 策略 就 是 选择 状态 为 *' 时 ， 值 阔 数 最 大 的 动作 。 其 
Python 实现 为 
def greedy(qfunc, state): 
amax = 0 
key = “ed 38" % (state, actions[0]) 
qmax = gqfunc[key] 
for i in range(len(actions)): # 扫描 动作 空间 得 到 最 大 动作 值 函 数 
key = "$d %s" % (state, actions[i]) 
q = gfunc[key] 
if qmax < q: 
qmax = q 
amax = i 
return actions [amax] 
该 段 代码 与 上 段 代 码 几 乎 一 样 ， 不 同 的 是 所 取 的 状态 值 不 一 样 。 
该 段 代码 的 状态 是 当前 状态 s 的 下 一 个 状态 s’。 


(4) 值 函 数 的 更 新 。 
(ARMS MAA 


Q (81,01) — Q (s04) + alr, + ymaxQ(s,41,a) 一 Q(s.,0) 
代码 实现 为 


key = "%d $s"%(s, a) 

# 与 环境 进行 一 次 交互 ， 从 环境 中 得 到 新 的 状态 及 回报 

sl, r, tl, 1 =grid.step(a) 

keyl = "" 

#s1 处 的 最 大 动作 

al = greedy(qfunc, sl) 

keyl = "%d_5%s"%(s1, al) 

# 利 用 Qlearning 方法 更 新 值 函 数 

qfunc [key] = qfunc[key] + alphax (r + gamma * qfunc[key1]-qfunc[key]) 


5.3 习题 
1. 时 间 差 分 方法 与 蒙特 卡 罗 方 法 、 动 态 规划 方法 的 区 别 和 联系 。 


2. 如 何 理 解 TD A) 算法 的 前 向 视角 和 后 向 视角 。 
3. 利 用 Sarsa 和 Qlearning 方 法 解决 下 列 迷 官 问题， 并 比较 它们 的 差 


Allo 


4. 修 改 Qleaming 中 的 探索 策略 ， 如 使 用 玻 尔 兹 曼 探 索 ， 解 决 上 述 
迷宫 问题 ， 并 试 着 比较 两 者 的 优 劣 。 


6 BT RGR KF AA 
6.1 基于 值 函数 逼近 的 理论 讲解 


前 面 已 经 介绍 了 强化 学 习 的 基本 方法 : 基于 动态 规划 的 方法 ， 基 
于 蒙特 卡 罗 的 方法 和 基于 时 间 差 分 的 方法 。 这 些 方 法 有 一 个 基本 的 前 
是 条 件 : 状态 空间 和 动作 空间 是 离散 的 ， 而 且 状 态 空间 和 动作 空间 不 
能 太 大 。 

这 些 强 化 学 习 方 法 的 基本 步骤 是 先 评 估 值 函数 ， 再 利用 值 函 数 改 
SS BIBRA, APRN EXE. 

WIRE CAMARA, ALAA SARI AS FIBA; 对 
于 模型 未 知 的 系统 ， 可 以 利用 蒙特 卡 罗 的 方法 或 时 间 差 分 的 方法 得 到 
EEEE 

注意 ， 这 时 的 值 辫 数 其 实 是 一 个 表格 。 对 于 状态 值 疯 数 ， 其 索引 
是 状态 ;对 于 行为 值 水 数 ， 其 索引 是 状态 -行为 对 。 值 滔 数 的 迭代 更 新 
实际 上 就 是 这 张 表 的 迭代 更 新 。 因 此 ， 之 前 讲 的 强化 学 习 算 法 又 称 为 
表格 型 强化 学 习 。 对 于 状态 值 函数 ， 其 表格 的 维 数 为 状态 的 个 数 |9| ， 
其 中 5 为 状态 空间 。 若 状态 空间 的 维 数 很 大 ， 或 者 状态 空间 为 连续 空 
间 ， 此 时 值 永 数 无 法 用 一 张 表 格 来 表示 。 这 时 ， 我 们 需要 利用 函数 逼 
近 的 方法 表示 值 国 数 ， 如 图 6.1 所 示 。 当 值 函 数 利用 函数 带 近 的 方法 表 
示 后 ， 可 以 利用 策略 迭代 和 值 迭代 方法 构建 强化 学 习 算 法 。 


序 贯 决策 问题 
时 


马尔 科 夫 决策 过 程 MDP (S,A,P,R,y) 


(S,A,P? R? y? ) 


无 模型 的 强化 学 习 方法 


(S,A,P,R,y) 


基于 模型 的 动态 规划 方法 


图 6.1 值 函 数 逼 近 在 强化 学 习 算法 中 的 应 用 
在 表格 型 强化 学 习 中 ， 值 函数 对 应 着 一 张 表 。 在 值 六 数 逼近 方法 
中 ， 值 函数 对 应 着 一 个 逼近 函数 &(s) 。 从 数学 角度 来 看 ， 函 数 逼 近 方 


法 可 以 分 为 参数 逼近 和 非 参 数 逼 近 ， 因 此 强化 学 习 值 阔 数 估计 可 以 分 
为 参 效 化 运 近 和 非 参 效 化 逼近 。 其 中 参数 化 逼近 又 分 为 线性 参 效 化 逼 
近 和 非 线 性 化 参数 逼近 。 

本 人 我 们 主要 介绍 参数 化 带 近 。 所 谓 参 数 化 带 近 ， 是 指 值 玫 数 可 
以 由 一 组 参数 6 来 近似 。 我 们 将 逼近 的 值 图 数 写 为 &w(s,0) 。 

当 逼 近 的 值 函 数 结构 确定 时 (SOA AY aE TT REN, JE 
性 逼近 时 选 定 了 神经 网 络 的 结构 ) ， 那 么 值 孙 数 的 逼近 就 等 价 于 参数 
的 逼近 。 值 永 数 的 更 新 也 就 等 价 于 参数 的 更 新 。 也 融 是 说 ， 我 们 需要 
利用 试验 数据 来 更 新 参数 值 。 那 么 ， 如 何 利用 数据 更 新 参数 值 呢 ， 也 
就 是 说 如 何 从 数据 中 学 到 参数 值 呢 ? 

我 们 回顾 一 下 表格 型 强化 学 习 值 阔 数 更 新 的 公式 ， 以 便 从 中 得 到 
启发 。 


蒙特 卡 罗 方 法 ， 值 冰 数 更 新 公式 为 

Q(s,a) — Q(s,a) +a(G,—Q(s,a)) (6.1) 
TDA AAAA ENAA 
Q(s,a) = Q(s,a) talr +7Q(s’,a’) —Q(s,a)] (6.2) 


TD(A) FEBRREMANA 
Q(s,a) + Q(s,a) + alG*— Q(s,a)] (6.3) 


从 (6.1) ~ (6.3) WARRI SURAT, Rea 
程 是 向 着 目标 值 冰 数 靠近 。 如 图 6.2 所 示 为 TD 方法 更 新 值 玉 数 的 过 程 。 


0(s,a) r+vQ(s',a') 


O 
图 6.2 TDA BRR 

从 表格 型 值 图 数 的 更 新 过 程 ， 可 以 看 出 无 论 是 蒙特 卡 罗 方 法 还 是 
时 间 差 分 方法 ， 都 是 朝 着 一 个 目标 值 更 新 的 ， 这 个 目标 值 在 蒙特 卡 罗 
方法 中 是 G, ， 在 时 间 差 分 方法 中 是 7 十 YQ(s”a”)， 在 TD(A) 中 是 G? 

将 表格 型 强化 学 习 值 函数 的 更 新 过 程 推广 到 值 铀 数 融 近 过 程 ， 有 
如 下 形式 。 

国 数 逼近 1(s,0) 的 过 程 是 一 个 监督 学 习 的 过 程 ， 其 数据 和 标签 对 
HSU), EF U 等 价 于 蒙特 卡 罗 方 法 中 的 ， 时 间 差 分 方法 中 的 
r 十 YQ(s”Q’) ， 以 及 TD(A) 中 的 Ge 。 

训练 的 目标 函数 为 


arg min (q(s,a) q(s,a,0)) i (6.4) 


下 面 我 们 比较 总 结 一 下 表格 型 强化 学 习 和 函数 逼近 方法 的 强化 学 
习 值 沙 数 更 新 时 的 异同 点。 


(1) 表格 型 强化 学 习 在 更 新 值 冰 数 时 ， 只 有 当前 状态 S: 处 的 值 
疯 数 改变 ， 其 他 地 方 的 值 水 数 不 改 变 。 

(2) RAGA A EAA AA, EEB ， 而 估计 的 
值 函数 为 0(s,0) ， 所 以 当 参 数 0 发 生 改 变 ， 任 意 状 态 处 的 值 函 数 都 会 
发 生 改 变 。 

值 函 数 更 新 可 分 为 增 量 式 学 习 方 法 和 批 学习 方 法 。 我 们 先 介绍 增 
量 式 学 习 方法 ， 其 中 随机 梯度 下 降 法 是 最 常用 的 增 量 式 学 习 方 法 。 

1. 增 量 式 学 习 方 法 : 随机 梯度 下 降 法 

FA (6.4) 式 我 们 得 到 参数 的 随机 梯度 更 新 为 

6,41:=6,t+al[U,—0(S;,6,) |] Ved(S,,0) (6.5) 


基于 蒙特 卡 罗 方 法 的 函数 逼近 ， 有 具体 过 程 如 下 。 
给 定 要 评估 的 策略 ， 产 生 一 次 试验 : 


S1 S9 S3 ST—1 ST 
FARERI kme DnA FE, HA a 
从 蒙特 卡 罗 的 试验 中 得 到 ? 其 数据 集 为 《81, G1), C82, G22, + Csr, Gr? 
ERRIETA Fo 
A0 =a (G, — (S0) ) VdS 0) (6.6) 
其 中 a 值 比较 小 。 在 随机 梯度 下 降 法 中 ， 似 乎 并 不 清楚 为 什么 每 
一 步 采 用 很 小 的 更 新 。 难 道 我 们 不 能 在 梯度 的 方向 上 移动 很 大 的 距离 
甚至 完全 消除 误差 吗 ?” 在 很 多 情况 下 确实 可 以 这 样 做 ， 但 是 通 单 这 并 
不 是 我 们 想 要 的 。 请 记 住 ， 我 们 的 目的 并 不 是 在 所 有 的 状态 找到 精确 
的 值 辫 数 ， 而 是 一 个 能 平衡 所 有 不 同 状 态 误差 的 值 冰 数 逼近 。 如 果 我 
们 在 一 步 中 完全 纠正 了 偏差 ， 那么 我 们 就 无 法 找到 这 样 的 一 个 平衡 
了 。 因 此 较 小 的 Qa 值 可 以 维持 这 种 平衡 。 


WE6.3INARFREWRHEF AAA E EAE RHE 
罗 方 法 的 目标 值 图 数 使 用 一 次 试验 的 整个 回报 返回 值 。 
基于 梯度 的 蒙特 卡 罗 值 函数 评估 算法 
输入 : 要 评估 的 策略 m, ATRD AR 0:SX R”" 一 RR 
恰当 地 初始 化 的 值 函数 权重 0 〈 例 如 0 一 0 ) 
Repeat: 
利用 策略 ”产生 一 幕 数据 
For t=0,1,……,7—1 
0+0 +alG,—(S,,0)] V? (S,,8) 
图 6.3 AFREIRA EF AAU 


我 们 再 看 时 间 差 分 方法 。 根 据 方程 〈6.5) , TD (0) 方法 中 目标 
(BRA U: = Ri 十 0499) , BEARS EI T bootstrapping 


的 方法 。 

我 们 注意 到 此 时 要 更 新 的 参数 0 不 仅 出 现在 要 估计 的 值 冰 数 
0(S,,0) 中 ， 还 出 现在 目标 值 函数 奈 中 。 若 只 考虑 参数 0 对 估计 值 函 
数 449, 为 的 影响 而 忽略 对 目标 值 函 数 Ui 的 影响 ， 这 种 方法 就 不 是 完 


全 的 梯度 法 〈 只 有 部 分 梯度 ) ， 因 此 也 称 为 基于 半 梯 度 的 TD (0) (AR 
数 评估 算法 ， 如 图 6.4 所 示 。 


0.+1= 0, 二 a[R 二 (9S’,0) — (Si, 0) |V (S:,0:) (6.7) 


基于 半 梯 度 的 TD (0) 值 函 数 评估 算法 
输入 : 要 评估 的 策略 re, —P ABI OS xR" > R 
恰当 地 初始 化 的 值 函 数 权重 女 ”( 例 如 0 二 0 ) 
Repeat: 
初始 化 状态 S， 
Repeat (对 于 一 慕 中 的 每 一 步 ) 
选择 动作 A~a(-\S) 
采用 动作 A 并 观测 回报 RS 
Oi=0,+alR+ yo(S',0) — 0(S,,0,)] Vo(S,,0,) 
SeS 
直到 S” 是 终止 状态 
图 6.4 基于 半 梯 度 的 TD (0) 值 永 数 评估 算法 
如 图 6.5 所 示 为 基于 半 梯 度 的 Sarsa 算法 。 与 表格 型 强化 学 习 相 
比 ， 值 永 数 带 近 方法 中 把 对 值 阔 数 的 更 新 换 成 了 对 参数 的 更 新 ， 参 数 
的 学 习 过 程 为 监督 学 习 。 
输入 : 一 个 要 盟 近 的 可 微 动作 值 函 数 : 9:5 X AX R" > 及 任意 地 初始 化 的 值 函数 权重 息 ( 例 如 已 王 0) 
Repeat (foreach episode) : 
初始 化 状态 行为 对 S, A 
Repeat 《对 于 每 一 幕 数据 中 的 每 一 步 ) : 
采用 动作 A， 得 到 回报 R， 和 下 一 个 状态 S 
WRS 是 终止 状态 : 0+ 0+ a[R—G(S,A,0)|VG(S,A,0) 
进入 下 一 莫 
利用 软 策略 选择 一 个 动作 A ， 以 便 估 计 动 作 值 函数 9(S'A'0) 
G0+alR+(S"A'0) —G(S,A,0)]¥G(S,A,0) 
SHF 
A A 
图 6.5 基于 半 梯 度 的 Sarsa 算 法 
到 目前 为 止 ， 我 们 还 没有 讨论 要 带 近 的 值 玫 数 的 形式 。 值 永 数 可 
以 采用 线性 逼近 也 可 采用 非 线 性 逼近 。 非 线性 逼近 常用 的 是 神经 网 


络 。 

下 面 我 们 仅 讨 论 线性 逼近 : 0(s,0) =0" $(s) 

相 比 于 非 线 性 逼近 ， 线 性 带 近 的 好 处 是 只 有 一 个 最 优 值 ， 因 此 可 
以 收敛 到 全 局 最 优 。 其 中 %(s) 为 状态 s 处 的 特征 函数 ， 或 者 称 为 基 函 


常用 的 基 国 数 的 类 型 如 下 。 
ANNER, 如 (1 ) 51)52) 182, ST,52, +e) o 
f=] 


EHER: 9i(s) =cos(irs), sE [0,1] 


amBER: 40) =p- E9) 
KRIE E (BRA ENE FEAM FE REAR, BLL 
得 到 参数 的 更 新 公式 ， 不 同 强化 学 习 方 法 更 新 公式 如 下 。 
蒙特 卡 罗 方 法 值 图 数 更 新 公式 : 
Ad =alU, (s) — 0(S;,,6,) ]Vo(S;, 4) 
=alG,—0* ¢]¢ 
TD (0) 4eMEiBiT (BRAT: 
Ad=alR+ 70" p(s) — 07 $(s) 1 G(s) 
= ad¢(s) 
正 向 视角 的 TD( 和 A) 更 新 公式 : 
Ad = a(G; —07¢)¢ 
后 向 视角 的 TDP(A) 更 新 公式 : 


6, = Risit 70" $(s’) 一 9 o(s) 
E, = yAE._-1+ 6(s) 
Ad = aô, E, 

前 面 讨论 的 是 增 量 式 方 法 更 新 。 增 量 式 方法 参数 更 新 过 程 随机 性 
比较 大 ， 尽 管 计算 简单 ， 但 样本 数据 的 利用 效率 并 不 高 。 

我 们 再 来 看 下 批 的 方法 ， 尽 管 它 计算 复杂 ， 但 计算 效率 高 。 

所 谓 批 的 方法 是 指 给 定 经 验 数据 集 
D= {ls,v7 >, 《82,U2 > » saa 《sr,U7 >} 》 找 F1) RUF AHA eR 2h 
0(s,0) ,使 得 LS5(0) = X (uF —O7 (si,0)) 最 小 。 

可 利用 线性 最 小 二 乘 逼近 : 

Ab=a > [or 一 9(s)]4(s) 一 0 
最 小 二 乘 蒙特 卡 罗 方 法 参数 为 
0= 这 $s) $s,) i Sos)0, 
最 小 二 乘 差分 方法 为 
0 一 这 9$ (si) ((s,) -Gu >》 $(s) Ren 
最 小 二 乘 TD (和) 方法 为 


0 一 ee -p00) "| > BR 


6.2 DQN 及 其 变种 


6.2.1 DQN 方 法 


强化 学 习 逐 渐 引 起 公众 的 注意 要 归功 于 谷歌 的 DeepMind 公 司 。 
DeepMind 公司 最 初 是 由 Demis Hassabis , Shane Legg 和 Mustafa 
Suleyman 于 2010 年 创立 的 。 创 始 人 Hassabis 有 三 重 身份 : 游戏 开发 者 ， 
神经 科学 家 以 及 人 工 智 能 创业 者 。Hassabis 游戏 开发 者 的 身份 使 人 不 难 
理解 DeepMind 在 Nature 上 发 表 的 第 一 篇 论文 是 以 雅 达 利 (atari) 游戏 为 
背景 的 。 同 时 ，Hassabis 又 是 国际 象棋 高 手 ， 他 在 挑战 完 简 单 的 雅 达 利 
游戏 后 再 挑战 深奥 的 围棋 游戏 也 就 不 难 理解 了 。 这 就 有 了 AlphaGo 和 李 
世 石 的 2016 之 战 ， 以 及 他 在 Nature 发 表 的 第 二 篇 论文 。 一 战 成 名 之 后 ， 
深度 强化 学 习 再 次 博得 世人 的 眼球 。 当 然 ，DeepMind 的 成 功 离 不 开 近 
几 年 取得 突破 进展 的 深度 学 习 技 术 。 本 节 主 要 讲解 DQN， 也 就 是 
DeepMind 发 表 在 Nature 上 的 第 一 篇 论文 ， 名 字 是 Human-level Control 
through Deep Reinforcement Learningo 

平 心 而 论 ， 这 篇 论文 只 有 两 个 创新 点 ， 即 经 验 回放 和 设立 单独 的 
目标 网 络 ， 后 面 我 们 会 详细 介绍 。 算 法 的 大 体 框 架 是 传统 强化 学 习 中 
的 Qleaming。 我 们 已 经 在 第 5 章 时 间 差 分 方法 中 前 述 了 。 为 了 前 后 理 
解 方便 ， 我 们 再 重新 梳理 下 。 

Qlearning 方 法 是 异 策略 时 间 差 分 方法 。 其 伪 代 码 如 图 6.6 所 示 。 


1. 初始 化 Q(s,a), Ys E S, ae4(s), 给 定 参数 w，y 


Repeat: 


给 定 起 始 状 态 s， 并 根据 给 焚 策 略 在 状态 s 选择 动作 a 
Repeat (对 于 一 幕 的 每 一 步 ) F 行动 策略 为 s, 贪 禁 策略 


2. 

S; 

4. 

5, (a) 根据 E 贪 禁 策略 在 状态 5, 选择 动作 4, ， 得 到 回报 7 和 下 一 个 状态 8, + 1 
6. (b) 2(5;.4,) —O(s,.4,)+al 7, + ymax O(s,..,4)-O(s,.4,)] a TIRAR HAMAR 
ts 

8. 

9. 


(c) s=s’ , a=a’ 
Until s 是 终止 状态 
Until 所 有 的 Q(s, a) 收敛 
0， 输 出 最 终 策略 : n(s)= argmax Qls,0) 


= 


图 6.6 Qlearning 方 法 的 伪 代 码 


掌握 Qlearning 方法 一 定 要 明白 两 个 概念 异 策略 和 时 间 差 分 ， 
以 及 这 两 个 概念 在 Qlearning 算 法 是 中 如 何 体 现 的 。 下 面 我 们 一 一 介 
绍 。 

异 策 略 ， 是 指 行动 策略 (产生 数据 的 策略 ) 和 要 评估 的 策略 不 是 
一 个 策略 。 在 图 6.6 的 Qlearning 伪 代 码 中 ， 行 动 策 略 (产生 数据 的 策 
BS) 是 第 5 行 的 e-greedy 策 略 ， 而 要 评估 和 改进 的 策略 是 第 6 行 的 贪 楚 策 
上 〈 每 个 状态 取 值 孙 数 最 大 的 那个 动作 ) 。 

时 间 差 分 方法 ， 是 指 利 用 时 间 差 分 目标 来 更 新 当前 行为 值 函 数 。 
在 图 6.6 的 Qleaming 伪 代码 中 ， 时 间 差 分 目标 为 "二 YmaxQ (srr1,a) 


Qlearning 算 法 是 1989 年 由 Watkins 提 出 来 的 ，2015 年 Nature 论 文 提 
到 的 DQN 就 是 在 Qlearming 的 基础 上 修改 得 到 的 。 

DQN 对 Qlearning 的 修改 主要 体现 在 以 下 三 个 方面 。 

(1) DQN# FARES ARH ZB SIE (BARK 

(2) DQN 利 用 了 经 验 回放 训练 强化 学 习 的 学 习 过 程 ; 

(3) DQN 独 立 设置 了 目标 网 络 来 单独 处 理 时 间 差 分 算法 中 的 TD 
偏差 。 

下 面 ， 我 们 对 这 三 个 方面 做 简要 介绍 。 

(1) DQN 利 用 卷 积 神经 网 络 逼 近 行 为 值 轴 数 。 

如 图 6.7 所 示 为 DQN 的 行为 值 玉 数 逼 近 网 络 。 我 们 在 6.1 节 已 经 介绍 
了 值 孙 数 的 逼近 。 只 不 过 6.1 节 中 讲 的 是 线性 远近 ， 即 值 函 数 由 一 组 基 
孙 数 和 一 组 与 之 对 应 的 参数 相 乘 得 到 ， 值 玉 数 是 参数 的 线性 函数 。 而 
DQN 的 行为 值 轴 数 利 用 神经 网 络 和 逼近， 属于 非 线 性 和 逼近。 虽然 逼近 方 
法 不 同 ， 但 都 属于 参数 逼近 。 请 记 住 ， 此 处 的 值 函 数 对 应 着 一 组 参 
数 ， 在 神经 网 络 里 参数 是 每 层 网 络 的 权重 ,我们 用 9 表示 。 用 公式 表 
示 的 话 值 水 数 为 @(s,4;9) 。 请 留意 ， 此 时 更 新 值 函 数 时 其 实 是 更 新 参 
数 9 ， 当 网 络 结构 确定 时 ，9 就 代表 值 水 数 。DQN 所 用 的 网 络 结构 是 
三 个 卷 积 层 加 两 个 全 连接 层 ， 整 体 框架 如 图 6.7 所 示 。 
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7) FA 42% DO) 28 es (BR EN CA Ee EF MS EET, P 
以 追溯 到 上 个 世纪 90 年 代 。 当 时 学 者 们 发 现 利用 神经 网 络 ， 尤 其 是 深 
度 神经 网 络 副 近 值 冰 数 不 太 靠 谱 ， 因 为 常常 出 现 不 稳定 不 收敛 的 情 
况 ， 所 以 在 这 个 方向 上 一 直 没 有 突破 ， 直 到 DeepMind 的 出 现 。 

我 们 要 问 ，DeepMind 到 底 做 了 什么 ? 

别 忘 了 DeepMind 的 创始 人 Hassabis 是 神经 科学 的 博士 。 早 在 2005 
年 ，Hassabis 就 开始 琢磨 如 何 利用 人 的 学 习 过 程 提升 游戏 的 智能 水 平 ， 
为 此 他 去 伦敦 大 学 开始 攻读 认 知 神经 科学 方向 的 博士 ， 并 很 快 有 了 突 
出 成 就 ， 在 Science、Nature 等 顶级 期 刊 狂 发 论文 。 他 当时 的 研究 方向 是 
海马 体 一 一 那么 ， 什 么 是 海马 体 ? 为 什么 要 选 海 马 体 ? 

海马 体 是 人 类 大 脑 中 负责 记忆 和 学 习 的 主要 部 分 ， 从 Hassabis 学 习 
认 知 神经 科学 的 目的 来 看 ， 他 选 海马 体 作为 研究 方向 就 是 水 到 渠 成 的 
事 儿 了 。 

现在 我 们 就 可 以 回答 ，DeepMind 到 底 做 了 什么 ? 


他 们 将 认识 神经 科学 的 成 果 应 用 到 了 深度 神经 网 络 的 训练 之 中 ! 

(2) DQN 利 用 经 验 回放 训练 强化 学 习 过 程 。 

我 们 睡觉 的 时 候 ， 海 马 体 会 把 一 天 的 记忆 重 放 给 大 脑 皮 层 。 利 用 
这 个 启发 机 制 ，DeepMind 团 队 的 研究 人 员 构 造 了 一 种 神经 网 络 的 训练 
方法 : 经 验 回放 。 

通过 经 验 回放 为 什么 可 以 令 神经 网 络 的 训练 收敛 且 稳 定 ? 

RAE: 训练 神经 网 络 时 ， 存 在 的 假设 是 训练 数据 是 独立 同 分 布 
的 ， 但 是 通过 强化 学 习 采 集 的 数据 之 间 存 在 着 关联 性 ， 利 用 这 些 数据 
进行 顺序 训练 ， 神 经 网 络 当 然 不 稳定 。 经 验 回 放 可 以 打破 数据 间 的 关 
联 ， 如 图 6.8 所 示 。 


$1, 01,12, $2) 
(89, 42,73, 83) 
< 83, a3,14,84) 


(84, Q4, T5; 85) 
(85, 45,76, 86> 


图 6.8 经 验 回放 

在 强化 学 习 过 程 中 ， 智 能 体 将 数据 存储 到 一 个 数据 库 中 ， 再 利用 
均匀 随机 采样 的 方法 从 数据 库 中 抽取 数据 ， 然 后 利用 抽取 的 数据 训练 
神经 网 络 。 

这 种 经 验 回 放 的 技巧 可 以 打破 数据 之 间 的 关联 性 ， 该 技巧 在 2013 
年 的 NIPS 已 经 发 布 了 ，2015 年 的 Nature 论文 则 进一步 提出 了 目标 网 络 
的 概念 ， 以 进一步 降低 数据 间 的 关联 性 。 

(3) DQN 设 置 了 目标 网 络 来 单独 处 理 时 间 差 分 算法 中 的 TD 偏 
差 。 

与 表格 型 的 Qlearning 算 法 (图 6.6) 不 同 的 是 ， 利 用 神经 网 络 对 值 
为 数 进行 逼近 时 ， 值 玉 数 的 更 新 步 更 新 的 是 参数 (如 图 6.9 所 示 ) ， 


DQN 利用 了 卷 积 神经 网 络 。 其 更 新 方法 是 梯度 下 降 法 。 因 此 图 6.6 中 第 
6 行 值 亢 数 更 新 实际 上 变 成 了 监督 学 习 的 一 次 更 新 过 程 ， 其 梯度 下 降 法 
为 


0+1 =0;+a|r + ymaxQ(s’,a’;0) — Q(s,a;8) |VQ(s,a;0) 


其 中 , "十 YmaxQ@(s”a”9) 为 TD Bin, EHA maxQ(s’,a’4) 
值 时 用 到 的 网 络 参数 为 。 


图 
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图 6.9 行为 值 函数 逼近 网 络 

我 们 称 计算 TD 目标 时 所 用 的 网 络 为 TD 网 络 。 在 DQN 算 法 出 现 之 
前 ， 利 用 神经 网 络 逼 近 值 阔 数 时 ， 计 算 TD 目标 的 动作 值 阅 数 所 用 的 网 
络 参 数 ， 与 梯度 计算 中 要 逼近 的 值 族 数 所 用 的 网 络 参 数 相同 ， 这 样 就 
容易 导致 数据 间 存 在 关联 性 ， 从 而 使 训练 不 稳定 。 为 了 解决 此 问题 ， 
DeepMind 提 出 计算 TD 目标 的 网 络 表示 为 ; 计算 值 函 数 逼 近 的 网 络 表示 
A; 用 于 动作 值 阔 效 逼近 的 网 络 每 一 步 都 更 新 ， 而 用 于 计算 TD 目标 的 
网 络 则 是 每 个 固定 的 步 数 更 新 一 次 。 

因此 值 函 数 的 更 新 变 为 


9 一 & 二 alr 十 YmaxQ@(Gs5asg) —Q(s,0;0) [VQ (s,a;0) 


最 后 我 们 给 出 DQN 的 伪 代 码 ， 如 图 6.10a 所 示 。 


[1] Initialize replay memory D to capacity N 

Initialize action-value function Q with random weights 0 

[3] _ Initialize target action-value function Q with weights 0 = 0 

[4] For episode = 1,M do 

[5] Initialize sequence sı = {x,} and preprocessed sequence ¢, =¢ (s) 
[6] For t = 1,T do 


[7] With probability £ select a random action a; 
[8] otherwise select a, = argmax, O(¢(s,),a; 0) 
[9] Execute action a in emulator and observe reward r, and image x; + 1 
[10] Set S41 = S;.@;.%;4, and preprocess ¢, , , =(S;41) 
[11] Store transition (ġ;, arre; 41) in D 
[12] Sample random minibatch of transitions CNR :) from D 
rj if episode terminates at step j 十 1 
Sety; = "A z o i 
(13) : r; +y maxy 0(% 404 36 ) otherwise 
[14] Perform a gradient descent step on | yj— Q( ġja; 0) ) with respect to the 
[15] network parameters 0 
[16] Every C steps reset Q= Q 
[17] End For 
图 6.10a DQN 的 伪 代 码 


下 面 我 们 对 DQN 的 伪 代 码 逐 行 说 明 。 

第 [1] 行 ， 初 始 化 回放 记忆 D， 可 容纳 的 数据 条 数 为 N; 

第 [2] 行 ， 利 用 随机 权 值 9 初始 化 动作 -行为 值 水 数 Q; 

ABT, SO =0 初始 化 ， 计 算 TD 目 标的 动作 行为 值 Q; 

第 [4] 行 ， 循 环 每 次 事件 ; 

第 [5] 行 ， 初 始 化 事件 的 第 一 个 状态 s1 ， 通 过 预 处 理 得 到 状态 对 应 
的 特征 输入 ; 

第 [6] 行 ， 循 环 每 个 事件 的 每 一 步 ; 

第 [7] 行 ， 利 用 概率 < 选 一 个 随机 动作 ww ; 

第 [8] 行 ， 若 小 概率 事件 没 发 生 ， 则 用 贪 楚 策 略 选择 当前 值 函 数 最 
大 的 那个 动作 a; = argmax@((s,),a;4) ; 


注意 : EAR ANE t A F AY (eS 5 E A R BY 
网 络 是 一 个 网 络 ， 都 对 应 。 


注意 : 第 [7] 行 和 第 [8] 行 是 行动 策略 ， 即 e-greedy 策 略 。 

第 [9] 行 ， 在 仿真 器 中 执行 动作 4: ， 观 测 回报 ARER T+ ; 

第 [10] 行 ， TS ES S141 = St, Qt, Ti+ ’ MANE, 1 = (S141) ; 

第 [11] 行 ， 将 转换 (am 6.41) 储存 在 回放 记忆 DD 中 ; 

第 [12] 行 ， 从 回放 记忆 DD 中 均匀 随机 采样 一 个 转换 样本 数据 ， 用 
(PaT P) RH; 

第 [13] 行 ， 判 断 是 否 是 一 个 事件 的 终止 状态 ， 若 是 则 TD 目标 为 ， 
否则 利用 TD 目标 网 络 0- 计算 TD 目标 ”二 YmaxQ@(s”a0 ) ; 


第 [14] 行 ， 执行 一 次 梯度 和 下降 算 法 
A0 =a|r + ymaxQ(s’, a’; 0) —Q(s,0;0) | VQ(s,a;0) ; 


第 [15] 行 ， 更 新 动作 值 函 数 逼 近 的 网 络 参 数 0 王 0 十 Ab ; 

第 [16] 行 ， 每 隔 C 步 更 新 一 次 TD 目标 网 络 权 值 ， 即 令 0 三 0 ; 

第 [17] 行 ， 结 束 每 次 事件 内 循环 ; 

第 [18] 行 ， 结 束 事件 间 循 环 。 

我 们 可 以 看 到 ， 在 第 [12] 行 利用 了 经 验 回 放 ; 在 第 [13] 行 利用 了 独 
立 的 目标 网 络 ; 第 [15] 行 更 新 动作 值 疯 数 副 近 网 络 参数 ;第 [17] 行 更 新 
目标 网 络 参数 。 


6.2.2 Double DQN 


上 一 节 我 们 讲 了 第 一 个 深度 强化 学 习 方 法 DQN，DQN 的 框架 仍然 
是 Qlearmning。DQN 只 是 利用 了 卷 积 神经 网 络 表示 动作 值 冰 数 ， 并 利用 
了 经 验 回 放 和 单独 设立 目标 网 络 这 两 个 技巧 。DQN 无 法 克服 Qlearning 
本 身 所 固有 的 缺点 一 一 过 估计 。 

那么 什么 是 过 估计 ? Qlearming 为 何 具有 过 估计 的 缺点 呢 ? 

过 估计 是 指 估 计 的 值 滔 数 比 真实 值 疯 数 要 大 。 一 般 来 说 ， 
Qlearning 之 所 以 存在 过 估计 的 问题 ， 根 源 在 于 Qlearning 中 的 最 大 化 操 


{Fo 
Qlearning 评 估 值 函数 的 数学 公式 如 下 有 两 类 。 
e 对 于 表格 型 ， 值 负数 评估 的 更 新 公式 为 


Q(s:,a:) — Q(s,,a,) +a] r, + ymaxQ(s,+1,a) -= (8,2) | 
e 对 于 基于 函数 逼近 的 方法 的 值 函数 更 新 公式 为 
9 一 十 al Rear + ymax (8.424056) —Q(Si, A:;0) ]VaQ(S,, A410) 


从 以 上 两 个 式 子 我 们 知道 ， 不 管 是 表格 型 还 是 基于 函数 逼近 的 方 
法 ， 值 函数 的 更 新 公式 中 都 有 max 操 作 。 

max 操 作 使 得 估计 的 值 孙 数 比 值 丽 数 的 真实 值 大 。 如 果 值 函数 每 一 
点 的 值 都 被 过 估计 了 相同 的 幅度 ， 即 过 估计 量 是 均匀 的 ， 那 么 由 于 最 
优 策略 是 贪 禁 策略 ， 即 找到 最 大 的 值 水 数 所 对 应 的 动作 ， 这 时 候 最 优 
策略 是 保持 不 变 的 。 也 就 是 说 ， 在 这 种 情况 下 ， 即 使 值 永 数 被 过 估计 
了 ， 也 不 影响 最 优 的 策略 。 强 化 学 习 的 目标 是 找到 最 优 的 策略 ， 而 不 
是 要 得 到 值 刺 数 ， 所 以 这 时 候 就 算是 值 轴 数 被 过 估计 了 ， 最 终 也 不 影 
响 我 们 解决 问题 。 然 而 ， 在 实际 情况 中 ， 过 估计 量 并 非 是 均匀 的 ， 因 
此 值 永 数 的 过 估计 会 影响 最 终 的 策略 决策 ， 从 而 导致 最 终 的 策略 并 非 
最 优 ， 而 只 是 次 优 。 

为 了 解决 值 浆 数 过 估计 的 问题 ，Hasselt 提出 了 Double Qlearning 
的 方法 。 所 谓 Double Qlearning 是 将 动作 的 选择 和 动作 的 评估 分 别 用 不 
AY (EKER. 

那么 ， 什 么 是 动作 的 选择 ? 什么 是 动作 的 评估 ? 我们 做 些 简要 的 
说 明 。 

e 动 作 选 择 

在 Qlearning 的 值 聘 数 更 新 中 ，TD 目 标 为 

Y? = R+ ymaxQ (Sr1, 0;0.) 


在 求 TD 目标 Yr 的 时 候 ， 我 们 首先 需要 选择 一 个 动作 即 a* ， 该 动 
作 a 应 该 满足 在 状态 S441 人 处 Q@(5441,4) 最 大 ， 这 就 是 动作 选择 。 


e 动 作 评估 
动作 评估 是 指 选 出 a” 后 ， 利 用 ac ”处 的 动作 值 永 数 构造 TD 目标 。 
一 般 Qlearning 利 用 同一 个 参数 入 来 选择 和 评估 动作 。 
Double Qlearning 分别 用 不 同 的 行为 值 轴 数 选 择 和 评估 动作 。 
Double Qlearning 的 TD 目标 公式 为 
Y PH = Rit 7Q (Si+1argmaxQ (Si+1,0;00);0: ) 


从 该 公式 我 们 看 到 ， 动 作 的 选择 所 用 的 动作 值 图 数 为 
argmaxQ(S;41,@;;) ， 

这 时 动作 值 图 数 网 络 的 参数 为 六 。 当 选 出 最 大 的 动作 a” 后， 动作 

评估 的 公式 为 
y pohe = Ri+i1 + YQ (Ss:+1,0 ;0:) 

动作 评估 所 用 的 动作 值 溯 数 网 络 参 数 为 0 。 

将 Double Qlearning 的 思想 应 用 到 DQN 中 ， 则 得 到 Double DQN EI 
DDQN， 其 TD 目标 为 


y PoubleQ 三 R st 0 SurvargmaxQ (Surn0; 0, )) 


6.2.3 优先 回放 (Prioritized Replay) 


DQN 的 成 功 归 因 于 经 验 回 放 和 独立 的 目标 网 络 。Double DQN PX 
进 了 Qlearning 中 的 max 操 作 ， 经 验 回放 仍然 采用 均匀 分 布 。 经 验 回放 
时 利用 均匀 分 布 采样 并 不 是 高 效 利 用 数据 的 方法 。 因 为 ， 智能 体 的 经 
验 即 经 历 过 的 数据 ， 对 于 知 TREKS JH FRASERIA S 

能 体 在 某 些 状态 的 学 习 效 率 比 其 他 状态 的 学 习 效率 高 。 优先 回放 的 基 
KE: 想 就 是 打破 均匀 采样 ， 赋予 学 习 效 率 高 的 状态 以 更 大 的 采样 权 


o 


如 何 选 择 权 重 ?” 一 个 理想 的 标准 是 智能 体 学 习 的 效率 越 高 ， 权 重 
越 大 。 符 合 该 标准 的 一 个 选择 是 TD 偏差 $ 。TD 偏 差 越 大 ， 说 明 该 状态 


处 的 值 函 数 与 TD 目标 的 差距 越 大 ， 智 能 体 的 更 新 量 越 大 ， 因 此 该 处 的 
于 学 习 效率 越 高 。 


我 们 设 样本 ? 处 的 TD 偏差 为 0%; ， 则 该 样本 处 的 采样 概率 为 


P(i) = 


Sp 
其 中 p8 由 TD 偏差 6, 决定 。 一 般 有 两 种 方法 ， 第 一 种 方法 是 
1 
pi 二 |6;| +e; 第 二 种 方法 是 ?i 二 Tank? Hc rank (i) 根据 |6;| 的 


排序 得 到 。 

当 我 们 采用 优先 回放 的 概率 分 布 采样 时 ， 动 作 值 轴 数 的 估计 值 是 
一 个 有 偏 估计 。 因 为 采样 分 布 与 动作 值 永 数 的 分 布 是 两 个 完全 不 同 的 
DH, 为 了 矫正 这 个 偏差 ， 我 们 需要 乘 以 一 个 重要 性 采样 系数 


“= (HFG) | 


带 有 优先 回放 的 Double DQN 的 伪 代 码 如 图 6.10b 所 示 。 


Algorithm 1 Double DQN with proportional prioritization 
1: Input: minibatch k, step-size 7, replay period K and size N , exponents œ and {, budget T. 


2: Initialize replay memory H = Ø, A = 0, pı = 1 

3: Observe Sp and choose Ag ~ Tal Spo) 

4: for t = 1 to T do 

5: Observe St, Rt, Yt 

6: Store transition (9 1, At—1, Rt, Yt, S+) in H with maximal priority pè = maxic Pi 
7: if t=0 mod K then 

8: for j = 1 to k do 

9: Sample transition j ~ P(j) = p$ / Dip? 

10: Compute importance-sampling weight w; = (N - P(j)) © / max; wi 

11: Compute TD-error 6; = Rj + 7; Qtamet (Sj, arg maxa Q(S;,a)) — Q(S;-1, Aj-1) 
12: Update transition priority pj + |ð; 

13: Accumulate weight-change A < A + wj - 4; - VeQ(Sj-1, Aj-1) 

14: end for 

15: Update weights 0 + 0 + 7- A, reset A = 0 

16: From time to time copy weights into target network Olarget +— 0 

17: end if 


18: Choose action A; ~ 79(5;) 
19: end for 


16.10 b 带 有 经 验 回 放 的 Double DQN 伪 代码 

下 面 我 们 逐 行 说 明 该 伪 代 码 。 

第 [1] 行 ， 输 入 : 确定 minibatch 的 大 小 上 ， 步 长 7 ， 回 放 周 期 及 ， 
存储 数据 的 总 大 小 N， 常 数 Qq,5 ， 总 时 间 了 ; 

第 [2] 行 ， 初 始 化 回放 记忆 库 儿 二 多 ,人 二 0,， p=0; 

第 [3] 行 ， 观 测 初试 状态 ， 选 择 动作 Ao~7e (So) ; 

第 [4] 行 ， 时 间 从 t=1 到 总 时 间 T， 进 入 循环 ; 

第 [5] 行 ， 利 用 动作 A 作用 于 环境 ， 环 境 返回 观测 S51, Ri, Yi 5 

第 [6] 行 ， 将 数据 (9，+ Ari Rn Vo) 存储 到 记忆 库 ?t p, BS 
其 优先 级 为 Pi Maxi<ePi ， 采 用 该 优先 级 初始 化 的 目的 是 保证 每 个 样 
本 至 少 被 利用 一 次 ; 

第 [7] 行 ， 每 隔 K 步 回放 一 次 ; 

第 [8] 行 : 依次 采集 k 个 样本 ; 

第 [9] 行 ， 根 据 概率 分 布 ;~P(j) =p? /2;D8 采样 一 个 样本 点 ; 


第 [10] 行 ， 计 算 样本 点 的 重要 性 权重 wj; 二 (N- P(j)) °/max,u; 


第 [11] 行 ， 计 算 该 样本 点 处 的 TD 偏差 

8; = R; + VQe (Sarg max, Q($,,a)) — Q(8, 14) 2); 

第 [12] 行 ， 更 新 该 样本 的 优先 级 p; 全 |6;| 5 

第 [13] 行 ， 累 积 权重 的 改变 量 A & 人 十 wj: s YoQ@(S;_1,4A;_1) 


第 [14] 行 ， 结 束 本 样本 的 处 理 ， 采 样 下 一 个 样本 ; 

第 [15] 行 ， 采 样 并 处 理 完 k 个 样本 后 更 新 权重 值 4 扩 2 十 7 A, E 
新 设置 人 A 三 0 ; 

第 [16] 行 ， 偶 尔 地 复制 新 权重 到 目标 网 络 中 ， 即 Waree 全 9， 

第 [17] 行 ， 结 束 一 次 更 新 ; 

第 [18] 行 ， 根 据 新 的 策略 4,~ro(5,) 选择 下 一 个 动作 ; 

第 [19] 行 ， 利 用 新 的 动作 作用 于 环境 ， 得 到 新 数据 ， 进 入 新 循环 。 

需要 注意 的 是 第 [9] 行 的 采样 方法 需要 对 P 的 所 有 样本 排序 ， 这 非常 


消耗 计算 能 力 ， 为 了 更 好 地 采样 ， 可 以 利用 更 高 级 的 算法 ， 如 SumTree 
的 方法 ， 具 体 可 参看 相关 论文 。 


6.2.4 Dueling DQN 


不 管 是 最 初 的 DQN， 还 是 由 DQN 演 化 出 的 Double DQN、 经 验 优先 
回放 DQN 在 值 函数 逼近 时 所 用 的 神经 网 络 都 是 卷 积 神经 网 络 。Dueling 
DQN 则 从 网 络 结构 上 改进 了 DQN。 动 作 值 函数 可 以 分 解 为 状态 值 亢 数 
和 优势 函数 〈 本 书 第 8 章 有 形象 的 解释 ) ， 即 


Q*(s,a) =V" (s) + A” (s,a) 


前 面 介 绍 的 各 类 DQN 方 法 ， 直 接 利用 神经 网 络 逼 近 @"(s,o) ， 
Dueling DQN 则 对 V” (s) FIA" (s,a) 分 别 利用 神经 网 络 远 近 ， 其 网 络 结 


构 如 图 6.10c 所 示 。 
4 vs) 
O Q” (s,a) 


A" (s,a) 
图 6.10c Dueling DQN 网 络 结构 
6.3 函数 逼近 方法 
本 章 第 一 节 介 绍 了 基于 值 孙 数 逼 近 的 强化 学 习 算 法 。 这 一 节 我 们 
扩展 视野 ， 从 数学 的 角度 去 全 面 了 解 国 数 逼 近 方 法 。 图 数 远 近 方法 可 


以 分 为 基于 参数 的 图 数 逼近 方法 和 基于 非 参 数 的 国 数 逼近 方法 。 下 面 
我 们 详细 介绍 。 


6.3.1 基于 非 参数 的 函数 逼近 
基于 非 参数 的 阔 效 和 逼近， 并非 指 没 有 任何 参数 的 图 数 逼 近 ， 而 是 
指 参数 的 个 效 和 基诺 的 形式 并 非 固定 、 由 样本 决定 的 逼近 方法 。 
我 们 举 个 例子 。 比 如 已 知 训练 样本 为 N 个 的 数据 集 T={ (xl yy 
) ， (x2，y2) ，,…， (XN yN) }， 求 和 逼近 这 些 样本 点 的 函数 。 
我 们 先 看 看 基于 参数 的 方法 是 怎么 做 的 。 
正如 前 面 所 说 ， 基 于 参数 的 方法 是 先 选 一 组 基 冰 数 9;(7) ， 然 后 设 


数 的 形式 为 1(7) = > bih: (z) ， 利 用 训练 数据 集 和 优化 方法 得 到 


I 
参数 从 ,… ,0 。 这 种 基于 参数 的 方法 ， 不 管 训练 集 数 据 量 的 多 少 ， 基 
函数 的 形式 、 人 参数 的 个 数 都 是 事先 给 定 的 。 

基于 非 参 数 的 函数 逼近 方法 则 不 同 ， 在 非 参 数 的 函数 逼近 中 ， 每 
个 样本 都 会 成 为 图 数 逼 近 的 一 部 分 。 如 基于 核 的 孙 数 至 近 ， 最 终 逼 近 


-n 


的 函数 形式 为 
Jæ) = >》 ay K (2,2,) + b 


MEXSPRINSE, RANMA So) ANSFBRRA 
R, KSMNARANRME, SRY K (2,2) 对 应 着 训练 数据 集 
中 的 一 个 样本 点 (7xi,y;) ， 因 此 样本 数 越 多 ， 函 数 项 越 多 。 非 参数 的 函 
数 逼 近 是 基于 样本 数据 推测 未 知 数据 的 一 种 方法 。 党 用 的 非 参数 的 玫 
e ee ane eda ee PEA 
“~~~ Ao 

1. 基 于 核 函数 的 方法 L11] 

核 函 数 的 提出 与 支持 向 量 机 (SVM) 有 密切 的 联系 。 所 以 ， 我 们 
先 了 解 支持 向 量 机 求解 问题 的 推导 过 程 。 

如 图 6.11 所 示 为 二 分 类 问题 ， 其 目标 是 找到 一 条 线 分 开 不 同类 别 的 
数据 。 对 于 高 维 数据 ， 分 类 问题 可 归结 为 寻找 超 平面 问题 ， 即 给 定 训 
AMES T = { (21,Y1),(22,Y2), "(an yw) } ， 找 到 可 分 开 数 据 集 的 超 
平面 : 

w-x£+b=0 (6.8 ) 


图 6.11 二 分 类 问题 


经 过 一 系列 转换 ， 该 分 类 问题 可 转化 为 如 下 最 大 间隔 的 优化 问 


网 ha xe 
min 9 lwll 
a (6.9 ) 
s.t. y,(w-2,+6)-—-120, i=1,2,--,N 


这 是 一 个 凸 二 次 规划 问题 ， 有 很 多 种 解决 的 方法 。 但 由 于 约束 条 
件 是 解析 的 线性 不 等 式 ， 我 们 可 将 其 转化 为 对 偶 优 化 问题 ， 再 利用 解 
析 的 方法 求解 。 之 所 以 采用 这 种 方法 也 是 为 了 引出 核 阔 数 。 

为 了 解决 (6.9) 式 ， 我 们 定义 拉 格 朗 日 函数 : 


N N 
1 
L(w,b,r) = 5 lwl? — X Ay: (w 2, +b) + > (6.10) 
i=1 i=1 


根据 拉 格 朗 日 对 偶 性 ，〈6.9) 式 的 对 偶 问 题 是 极 大 极 小 问题 : 
max min L(w,b, à) 

可 以 分 两 步 解 决 : 

第 一 步 ， se min L(w,b, A) P 


EHRL (w, b, A) 分 别 对 ww,b 求 偏 导数 ， 并 等 于 0， 即 


N 
Vo L(w,b, A) 一 也 一 > XNyizi=0 
i=1 


N 
i=1 


整理 得 


w= 》 Aya (6.11) 


> Ay =0 (6.12) 
将 (6.11) 式 和 (6.12) 式 代 入 (6.10) 式 ， 并 利用 (6.12) 式 可 
以 得 到 拉 格 朗 日 函数 为 
L(w,b, A) == 22 Awa ， 0 十 2A 


Bp 


min L(w,b,) =- so yiy, (Ti: 2) +r 


t=1 j= 


第 二 步 ， 求 minL(w,b, 入 ) 对 和 的 极 大 ， 即 原 问题 的 对 偶 问题 。 


max 一 toda Aj Yi; (Li 的) +r 


4 一 j= 


(6.13 ) 
> n=0 
i=1 


\,20, i=1,2, -N 


在 (6.13) 式 的 目标 函数 前 面 加 负 号 ， 将 求 极 大 问题 转化 为 求 标准 
的 极 小 问题 : 


1 N N N 
mins >) SAMY; (z: z;) 一 XA 
i=1 


i=1 j=1 


= (6.14) 
s.t. >》 Ay =0 
4 一 荆 


入 过 0, 7 一 1 2 
由 (6.14) 式 我 们 可 以 求 得 拉 格 朗 日 乘 子 人 ， 然 后 根据 求 得 
w= So Nz b=y;— 》 Ay: (t: z) (6.15) 
将 (6.15) 式 代 入 (6.8) 式 可 以 得 到 最 终 的 方程 为 
>》 NMNymriz 十 太一 》 Ayla 7)) 一 0 (6.16) 
从 上 面 的 例子 我 们 看 到 ， 在 整个 求解 优化 问题 的 过 程 中 ， 目 标 攻 
数 (6.14) 式 和 最 终 的 解 表示 (6.16) 式 中 的 输入 总 是 以 成 对 输入 乘积 
的 形式 出 现 ， 即 总 是 以 Xi* T 的 形式 出 现 。 我 们 将 两 个 输入 Zi; 和 7; 的 


FARE LAK ARK (zi,2;) ， 那 么 利用 核 函 数 就 可 以 求 得 最 终 解 ， 即 
最 终 方程 为 


N N 
> NyiK (2,2) + y;— > NyiK (zz)) =0 (6.17 ) 
在 该 例子 中 ， 核 水 数 是 简单 的 欧式 乘积 核 。 对 于 线性 可 分 的 简单 


问题 ， 核 溯 数 的 定义 很 简单 。 我 们 可 以 利用 核 当 数 丰富 的 性 质 求解 更 
复杂 的 问题 ， 比 如 线性 不 可 分 问题 ， 如 图 6.12 所 示 。 


图 6.12 线性 不 可 分 问题 

下 面 我 们 看 看 核 国 数 的 标准 定义 。 

IX 是 输入 空间 ， 又 设 刀 为 特征 空间 ， 如 果 存 在 一 个 从 闷 到 H 
的 映射 O(2):V¥ >H BPR: or): VX OH ， 使 得 对 所 有 的 x,zEt 
, RAK (1,2) 满足 条 件 : 

K(z,z) =$(x)- (2), WKK (2,2) ARM, ARAMA, 
tHe (2) -o(z) Hole) Moa) 的 内 积 。 

核 函 数 的 本 质 是 将 输入 空间 通过 映射 函数 风 (z) 映射 到 特征 空间 
中 ， 对 于 很 多 问题 ， 在 原 空 间 中 是 线性 不 可 分 的 ， 但 是 映射 到 特征 空 
间 后 就 成 了 线性 可 分 的 了 。 不 过 ， 利 用 核 当 数 不 需要 显 式 地 构造 映射 
Kol) 。 

常用 的 核 水 数 有 以 下 几 种 。 

e 线 性 核 : K(x,y) 一 Z 十 c 

e 多 项 式 核 : K(2,y) = (ax*y+c)* 

e 径 向 基 核 函数 : K(x,y) =exp(-yllxe—y|l’) 


eSigmoid 核 函数 : K (a,y) 一 tanh(a(Zz7 9y) +c) 


有 了 核 函 数 的 定义 ， 我 们 就 可 以 利用 核 冰 数 方法 各 近 函数 了 。 例 
如 ， 在 非 线 性 支持 向 量 机 学 习 算 法 中 ， 核 水 数 的 使 用 方法 如 下 。 

已 知 输入 为 训练 集 7 = {(21,91),(22,42),- (tn, yw) } ， 输 出 为 分 
类 决策 函数 。 

O 选取 适当 的 核 函 数 天 (z,z) 和 适当 的 参数 C， 构 造 并 求解 优化 问 


题 。 


t=1 j= 


N 
s.t. > ALY; = 0 
i=1 


0< ASC, i=1,2,-°,N 
AFK (1,2) 是 一 个 正定 核 ， 该 问题 是 个 凸 二 次 规划 问题 ， 因 此 解 
存在 。 其 解 为 。 
© 得 到 ,选择 其 中 正 分 量 0<X<C , HARE 


1 N N N 
1 i=1 


b=y;— >》 NyK (a; i)a 
i=1 
(3) 超 曲面 的 方程 为 
>》 NyiK (2,2) 十 yj; 一 >》 NyiK (v7)) =0 
i=1 t=1 


NAAN R EEn, FUR RECA RMN KE 
将 问题 构造 成 一 个 带 有 核 函 数 的 优化 问题 。 

2. 基 于 高 斯 过 程 的 函数 逼近 方法 [12] 

高 斯 过 程 预 测 是 给 定 训 练 数 据 集 D: 
= {X: = [21,°°°,2n)7,y: = [yin Yn] } AMR ， 求 出 在 测试 


点 2 时 的 预测 值 (z+) 。 


定义 预测 值 (e) = f(z:) +e, EX fa) 之 间 的 协 方差 矩阵 为 
核 函数 : 


cou(f(@),f(@)) =a? exp(-5 @— 2) A(e—2) 
则 输出 之 间 的 协 方 差 矩阵 为 


cov( F (2), F (2) ) =cov(f (2) +e,f@) +e) 
=cov(f (x), f(x’)) + cov(e,e) 
=k(z,7’) +071 


mr lS MMS lel be, AA EAR NEAT 
推理 得 出 ， 用 在 此 处 即 为 


p( Faly) 


根据 已 知 条件 ， 我 们 可 以 得 到 输入 y 和 预测 值 f(z;) 的 联合 概率 分 


布 。 由 于 输入 都 是 高 斯 分 布 ， 因 此 其 联合 概率 分 布 也 是 高 斯 的 ， 又 由 
于 输入 值 没有 任何 经 验 ， 因 此 输入 数据 的 先 验 均值 为 零 ， 输 出 的 均值 
也 为 零 。 

今 


k»: = k(X,2), Kx: = k(a«,r«), b: = (K +071) “y ’ Ky =k(2;,2;) 
， 则 联合 高 斯 分 布 为 


PARSIN E a 


联合 概率 分 布 的 协 方差 矩阵 可 分 解 为 


Ea le | 1 由 ee 0 | 
= 0 ke —k?(K +021) "he 


k? ke) LRP(K +021)? 1 
| Wo | 
0 1 
因此 ， 
ety ager rl era 0 | 
bP ke | «LO 1 0 (ke —b2 (K +02) The)? 


eases 
-k7 (K+o0?7)7 1 


根据 高 斯 分 布 公 式 有 

y FON TKI kff y 0 
lze- | kee | | 交加 
es 0 I 1 ‘ 
[F] L0 1 0 (ke — k? (K +021) ks) ]|-k? (K +021)? 1 
je 

f (as) 


= (F(a) k? (K +021) ty)" (ke — BF (K +021) th) 1 f(a.) -k7 (K +021) *y) +y"(K+021) ty 由 联 


合 概率 分 布 公式 
ply, f (a»)) = p(f (ey) py) 
根据 上 面 上 式 的 对 应 关系 我 们 得 到 后 验 概 率 分 布 服 从 如 下 高 斯 分 


v( f zy)~N (k? (K + 021) ly, kee — k? (K +021) he) 


Bp 


ms (a+) =k? (K +021) y=k B 
o? ( fe) =ke — k? (K +021) the 


6.3.2 基于 参数 的 函数 逼近 


6.1 节 介 绍 了 基于 参数 的 线性 逼近 。 我 们 再 回顾 一 下 ， 基 于 参数 的 
线性 逼近 可 以 用 (6.18) 式 表 示 。 

0(s,0) 一 070(s) (6.18 ) 

在 利用 (6.18) REEN, BABAR), BIRR 
FR PRI BK i) || ZF AF Bll EE CK ANA IT NAV BAN. APART STA ARAE 
FAR, AJER TAER REALE, AFERA, RS 
KORRATA EEE AR;, 而 且 基 函数 的 形式 是 事先 选 定 
的 ， 这 也 限制 了 图 数 的 逼近 能 力 。 

有 没有 一 种 方法 ， 使 得 基 函 数 风 s) 是 变化 的 呢 ? 

有 。 第 一 种 方法 就 是 前 面前 述 的 非 参 数 化 图 数 逼 近 方 法 。 在 非 参 
数 化 函数 逼近 中 ， 我 们 看 到 基 函 数 的 个 数 和 形式 由 采样 点 决定 ， 因 此 
非 参数 化 的 图 数 逼 近 方 法 具有 无 穷 的 表现 力 。 但 是 ， 非 参数 化 的 图 数 
逼近 存在 着 维 数 灾难 和 随 着 数据 增多 计算 量 指数 升 高 的 问题 。 

第 二 种 方法 是 神经 网 络 。 神 经 网 络 可 以 看 成 是 基 国 数 参数 化 的 一 
种 方法 。 为 什么 ? 

我 们 先 来 看 前 向 神经 网 络 ， 如 图 6.13 所 示 。 


(1) (2) 
T Wi 2@ Ql (2) 
; ws 11 (3) 
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layer | layer2 layer3 
图 6.13 前 向 神经 网 络 

该 神经 网 络 包括 三 层 ， 第 一 层 为 输入 层 ， 第 二 层 为 隐 含 层 ， 第 三 
层 为 输出 层 。 为 了 便于 表述 ， 我 们 做 如 下 符号 规定 。 n 表示 整个 神经 
网 络 的 结构 ， 在 图 6.13 中 % 二 3 ， 将 第 1 层 记 为 L: Ae L 为 输入 
B, Ln 为 输出 层 。 神 经 网 络 的 参数 用 (W,b) 表示 ， 其 中 Ww 是 第 ! 层 
第 7 单元 与 第 1 十 1 层 第 i 单元 之 间 的 连接 参数 ， 必 ”是 第 ! 十 1 层 第 i 

单元 的 偏 置 项 。 在 图 6.13 中， WER, WER, 


O RTE REI 个 单元 输入 加 权 和 ， 例 如 在 图 6.13 中 : 


ny Nə 
z? = > War, ob, z9 = > WP a, +b? 


j=l 7 一 1 
a, 表示 第 1 层 的 第 i 个 单元 激活 ， 则 吕 =f eP). 
本 例 神 经 网 络 的 前 向 计算 可 以 总 结 为 


22 =Wge + 5M 
a? = f(z) 
22 = Wg + b2 
hw, (7) =a® = f(z) 
对 于 多 层 神经 网 络 ， 从 第 1 层 的 激活 a” 到 第 1 十 1 AE a” 
， 需 要 以 下 两 步 计算 。 
一 步 ， 计 算 第 1 层 激 活 a 的 线性 组 合 z >” : 
Zo = Weg + >” (6.19 ) 
第 二 步 ， 将 线性 组 合 通过 激活 函数 得 到 第 ! 十 1 层 的 激活 a"*”: 
gr P= Ft") ( 6.20 ) 


有 了 神经 网 络 的 基本 概念 ， 我 们 便 可 以 回答 ， 为 什么 神经 网 络 是 
基 上 数 参数 化 的 一 种 方法 了 。 假 设 输出 层 没 有 经 过 激活 函数 ， 则 输出 
为 


y 一 g) 一 WY am) 十 pD 
其 中 a~ 可 以 看 成 基 函 数 或 特征 函数 ， 由 (6.20) $4 ar! = 
f(W™ 3aw 740") | am) 的 参数 为 前 mm 一 1 层 的 神经 网 络 权 


值 。 由 于 基 函 数 是 参数 化 的 ， 因 此 神经 网 络 比 基 函 数 固定 的 线性 逼近 
具有 更 强 的 函数 逼近 能 力 。 现 在 我 们 对 神经 网 络 有 了 初步 认识 ， 那 么 
如 何 更 新 网 络 权 值 以 便 实现 阔 数 逼近 的 目的 呢 ? 神经 网 络 的 训练 使 用 
的 是 反 向 传导 算法 。 


神经 网 络 的 反 向 传导 算法 的 基本 思路 如 下 。 
神经 网 络 根 据 损失 水 数 ， 反 向 传播 更 新 权 值 。 设 训练 样本 集 为 


T = (ey) (a? ay); cs er a )} 


对 于 单个 样本 (z”,y”) ， 构 造 平方 损失 函数 为 
=gh] 


J (W,b;2,y) = 5 || Av. (2) 


Ly ) ie 
IW) =| ap 2 I Wb ) | + LL 
其 中 损失 函数 的 第 一 项 为 均 方 损失 ， 目 的 是 让 神经 网 络 逼 近 训练 
数据 ; 第 二 项 为 权 值 正则 项 ， 目 的 是 防止 网 络 过 拟 合 。 

有 了 损失 函数 ， 我 们 便 可 以 利用 梯度 下 降 法 来 更 新 每 个 权 什 


因此 训练 集 上 的 损失 逆 数 为 
(6.21) 


Wi Alb? , HBRAtHA 
W=WY-a awl, b) 
(6.22 ) 


bP =P —a pI, b) 
计算 (6.22) 式 的 关键 是 计算 损失 函数 相对 于 每 个 权 值 的 梯度 。 将 


(6.21) 代入 (6.22) 可 以 得 到 


N 
1 ð a 2 
Bm (Wb) = 4 > gy I Wibi?) + AW? 
i=1 1J 


ð LN 9 ) ,0 
Bem WD = ay om Wiha) 
计算 损失 函数 对 第 ! 层 权 值 的 梯度 ， 可 以 利用 后 向 传导 的 方法 递 扒 
|。 也 就 是 说 损失 函数 对 1 层 权重 的 梯度 可 由 第 1 十 1 层 的 量 计算 得 


(6.23 ) 


得 到 让 是 
I。 如 何 得 到 呢 ? 下 面 我 们 具体 推导 一 下 。 


一 步 ， 利 用 (6.19) 式 和 (6.20) 式 正 向 计算 每 一 层 的 激活 值 


a” a, sié a : . 


BoD, paw, hres 层 的 残 差 。 残 差 就 是 损失 函数 
对 每 个 神经 元 输入 的 偏 导 。 
对 于 输出 层 ， 可 计算 如 下 : 


600) = IW, zy) = Be" 2 | hw.» (x) ||? 


= 21S fe” Di 
=- (yaf) - Pe) 

第 三 步 ， 从 输出 层 往 后 传播 ， 递 推 得 计算 第 
n— l, nı — 2, nC— 3,.…,2 的 残 差 o 计 算 为 
6 = 这 wes?) PG) 。 推 导 过 程 如 下 。 

j=l 
由 定义 得 ， 第 nw 一 1 层 的 残 差 为 
S, 
= 0 0 1 一 pe 
6 is ge TI Mbit) = BDL wm n” 
S, 
lv ð 7 
-32 am iS vis 
0 
-> (y;—f (2) )) gpt ") 


-人 70) re) BE 


(6.24 ) 


FA (6.19) 式 和 (6.20) 式 得 
Dn-1 
= > > fat) Wetton (6.25 ) 
k=1 


将 (6.25) 式 代 入 (6.24) 式 得 


Sn, 


I = oe Wee fa) ( 6.26 ) 


j=1 


im — 1 和 i 的 关系 替换 为 1 与 1 十 1 的 关系 ， 可 以 得 到 残 差 的 反 
向 迭代 计算 公式 : 


6P = 这 woes) Ee) (627) 
j=l 


第 四 步 ， 计 算 偏 导数 。 


2 


0 O 
aw? J(W,b;z,y) = dz az) J(W,b;2,y) : owe ( 6.28 ) 
将 (6.19) 式 代 入 (6.28) 式 得 
aw J (W,b;2,y) =af?6t” 
(6.29 ) 


aa J (W,b;2,y) = 6"? 


下 面 我 们 用 图 的 形式 解释 残 差 传递 过 程 ， 即 解释 (6.27) 式 。 如 图 
6.14 所 示 为 前 向 神经 网 络 残 差 反 向 传播 。 


®©, 


layer | layer ! 十 1 
图 6.14 前 向 神经 网 络 残 差 反 向 传播 的 图 示 
假设 我 们 已 经 求 得 第 ! 十 1 层 的 残 差 56*+”， 则 第 !/ 层 的 第 i 个 节点 
对 应 的 残 差 如 (6.27) 式 所 示 ， 即 


0 = > wes?) PG) 
j=l 


从 该 式 中 我 们 看 到 ， 第 1 层 第 i 个 节点 的 残 差 需要 计算 第 ! 十 1 层 的 
残 差 64+2 乘 以 连接 该 节点 的 权重 W ARMY W8641? 。 
j=1 


至 此 ， 我 们 对 前 向 神经 网 络 的 反 向 求 导 过 程 有 了 比较 清楚 的 认 
识 。 再 回 到 之 前 的 话题 ， 将 神经 网 络 看 成 一 种 参数 化 基 函 数 的 方法 可 
以 加 深 对 神经 网 络 的 理解 。 由 于 基 函 数 的 参数 是 从 数据 中 学 习 得 到 
的 ， 因 此 其 表示 能 力 大 大 提升 。 神 经 网 络 的 每 层 都 可 看 成 是 基于 上 一 
层 的 新 的 基 函 效 ， 也 就 是 特征 。 从 这 个 意义 上 理解 ， 后 面 一 层 是 前 面 
一 层 的 抽象 ， 这 样 可 以 对 高 维 输入 降 维 。 和 浅 层 网 络 相 比 ， 深 度 网 络 
具有 更 强 的 表示 能 力 。 随 着 深度 网 络 技术 的 突破 性 发 展 ， 深 度 学 习 已 
在 各 行 各 业 广 泛 应 用 ， 尤 其 是 卷 积 神经 网 络 (CNN) ， 被 广泛 应 用 于 


mtr, SRE RFS JA ARRAN AEM. PREF 
细 介 绍 下 卷 积 神经 网 络 。 


6.3.3 卷 积 神经 网 络 


在 深度 神经 网 络 中 ， 网 络 的 参数 个 数 往往 达到 几 万 甚至 几 百 万 ， 
很 难 训练 。 卷 积 神经 网 络 则 通过 卷 积 和 池 化 降低 参数 个 数 ， 加 快 网 络 
训练 过 程 。 下 面 我 们 分 别 介绍 卷 积 和 池 化 。 

1. 卷 积 运算 

在 数学 上 ， 卷 积 是 两 个 函数 之 间 的 运算 ， 即 


s(t) = /swt oa 
通常 ， 我 们 用 星 号 来 表示 卷 积 运算 ， 即 
s(t) = (xxw) (t) 
在 卷 积 神经 网 络 的 术语 中 ， 第 一 个 参数 遂 数 7 通常 称 为 输入 
(input) ， 第 二 个 参数 函数 风 称 为 核 遂 数 ， 输 出 称 为 特征 映射 。 在 深 


度 学 习 中 ， 输 入 往往 是 多 维 数组 ， 如 输入 是 图 片 时 ， 可 表示 为 二 维 数 
组 。 


在 多 个 维度 上 做 卷 积 运算 ， 如 把 一 张 二 维 的 图 像 7 作为 输入 ， 这 
时 使 用 的 卷 积 核 也 是 二 维 的 ， 记 为 K; 则 二 维 卷 积 运算 为 
$ (i,j) = (IxK) (i,j) = ESI (m,n) K i—m,j — n) 
如 图 6.15 所 示 为 卷 积 操作 的 例子 ， 图 中 灰 底 标记 为 其 中 的 一 个 卷 积 


过 程 。 


1 1 0 0 


输入 1 卷 积 核 KK 输出 S 
图 6.15 二 维 卷 积 操作 
卷 积 神经 网 络 将 卷 积 操作 引入 神经 网 络 的 设计 中 ， 其 中 卷 积 核对 
应 权重 向 量 ， 卷 积 操作 通过 稀 疏 连接 和 权 值 共享 帮助 改进 神经 网 络 系 


统 。 


(1) 稀疏 连接 。 

在 前 向 神经 网 络 中 (参见 图 6.13) ， 每 层 神 经 元 之 间 的 连接 为 全 
连接 。 卷 积 核 使 相 邻 层 之 间 的 连接 不 再 是 全 连接 ， 而 是 使 神经 元 只 和 
临近 的 神经 元 相连 接 。 

如 图 6.16 所 示 为 神经 网 络 稀疏 连接 和 全 连接 的 示意 图 ， 其 中 图 A 为 
稀疏 连接 网 络 ， 图 B 为 全 连接 网 络 。 以 输入 状态 72 AG, EGER 
中 7Y2 只 与 下 一 层 相 邻 的 3 个 神经 元 相连 ， 而 在 全 连接 网 络 中 ， 7Z2 与 下 
一 层 的 所 有 神经 元 相连 。 同 样 ， 下 一 层 的 s HER AR SHAR 
的 T1, Z2,73 相连 接 ， 在 全 连接 中 ， 52 要 与 上 一 层 所 有 的 输入 相连 。 在 
二 维 的 卷 积 操作 中 (参见 图 6.15) ， 下 一 层 的 元 素 只 通过 核 与 上 一 层 的 
部 分 输入 相连 ， 相 连 的 输入 个 数 由 卷 积 核 的 大 小 决定 。 在 这 里 ， 卷 积 
ee 


84 


图 A mEt 图 B 全 连接 


图 6.16 神经 网 络 稀 踊 连接 和 全 连接 示意 图 
(2) 权 值 共享 。 

权 值 共享 ， 是 指 神经 元 在 连接 下 一 层 神经 元 时 使 用 相同 的 权 值 。 
如 图 6.17 所 示 为 神经 网 络 权 值 共 享 的 示意 图 。 在 权 值 非 共享 的 前 向 神经 
网 络 中 ， 每 个 连接 都 对 应 着 不 同 的 权 值 ， 而 在 权 值 共享 机 制 中 ， 权 值 
处 处 相同 。 在 图 6.17 的 例子 中 ， 前 向 神经 网 络 的 权 值 为 
Wu, Wz2,W33,W ， 它 们 在 权 值 共享 的 机 制 下 共享 一 个 权 值 。 权 值 共 


享 机 制 再 次 急剧 减少 了 神经 网 络 的 权 值 数 。 
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© 6 oò 
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图 A 权 值 共享 图 B 权 值 不 共享 


图 6.17 神经 网 络 权 值 共享 示意 图 
2. 池 化 
所 谓 池 化 ， 就 是 用 某 区 域 的 统计 特征 来 表示 该 区 域 。 我 们 举 个 例 
子 说 明 。 如 图 6.18 所 示 为 最 大 池 化 示意 图 ， 左 上 角 区 域内 的 元 素 统计 量 
为 最 大 值 1， 所 以 池 化 后 代表 左上 角 的 元 素 为 1， 以 此 类 推 。 


池 化 
===> 


216.18 池 化 操作 示意 图 

闻 化 操作 也 可 参数 化 ， 如 区 域内 所 有 元 素 相 加 再 乘 以 一 个 可 训练 
的 参数 再 加 上 一 个 可 训练 的 偏 置 参数 。 

在 卷 积 神经 网 络 (CNN) 中 ， 卷 积 和 池 化 常常 交替 使 用 。 该 网 络 
结构 相当 于 在 普通 的 前 向 神经 网 络 中 应 用 了 无 限 强 的 先 验 。 此 先 验 为 
卷 积 操作 和 闻 化 操作 ， 非 常 适 用 于 图 像 这 类 网 格 型 结构 的 数据 ， 广 泛 
应 用 在 图 像 识 别 领域 。 在 视频 游戏 中 ， 由 于 输入 是 图 像 ， 因 此 用 CNN 
结构 的 神经 网 络 副 近 值 浮 数 效果 很 好 。 

如 图 6.19 所 示 为 典型 的 卷 积 神经 网 络 LeNet 网 络 结构 ， 其 中 卷 积 层 
和 闻 化 层 常 常 交 叉 连 接 。 下 面 我 们 详细 讲解 每 一 层 。 

C3 层 16 个 ”54 层 16 个 


C1 层 6 个 特征 图 g Pi sii sa 
28x28 SZIRT TAX 5x5 C5@120 。 F6 层 84 


特征 图 [= 输出 层 10 
32X32 | r= Tp 
LI 
输入 层 卷 积 层 1 池 化 层 1 卷 积 层 2 ” 池 化 层 2 REI 全 连接 层 输出 层 


图 6.19 LeNet 神 经 网 络 结构 
O 输入 层 。 输 入 一 张 32x32 像 素 大 小 的 图 像 。 
© 卷 积 层 1 即 C1 层 。 用 5x5 的 卷 积 核对 输入 为 32x32 的 图 像 做 卷 积 
操作 (参见 图 6.15) 。 由 于 不 考虑 拓展 图 像 的 边界 ， 用 5x5 的 卷 积 核 


卷 积 操作 后 ， 特 征 图 的 大 小 变 为 28xx28。 从 输入 层 到 C1 层 一 共用 了 6 个 
不 同 的 卷 积 核 ， 每 个 卷 积 核 得 到 一 幅 特征 图 ， 因 此 该 层 一 共 得 到 6 个 特 
征 图 。 每 个 卷 积 核 可 训练 的 参数 为 25 个 ， 每 个 卷 积 核 有 一 个 偏 置 ， 因 
此 该 层 共 有 (5x5+1) x6=156 个 可 训练 的 参数 。 

@ 池 化 层 1， 即 下 采样 层 S2 层 。 这 里 采用 的 池 化 操作 为 参数 化 池 化 
操作 。 具 体 为 池 化 区 域内 所 有 元 素 相 加 再 乘 以 一 个 可 训练 的 参数 ， 然 
后 加 上 一 个 可 训练 的 偏 置 参数 。 每 个 特征 图 对 应 着 一 组 可 训练 的 池 化 
参数 ，6 个 特征 图 共有 12 个 可 训练 的 参数 。 下 采样 层 可 用 如 下 公式 表 
J: 

zP = f (8P down (xf?) + 6°”) ( 6.30 ) 
其 中 可 训练 的 参数 为 B》 和 bY ， 为 激活 函数 。 
© 卷 积 层 2， 即 C3 层 。 该 层 包 括 16 个 特征 图 。 如 何 从 S2 层 得 到 C3 


BE? 如 图 6.20 所 示 为 S2 层 和 C3 层 之 间 的 连接 结构 。 我 们 举例 说 明 该 
图 的 含义 。 


先 看 第 一 列 ， 它 的 意思 是 C3 层 的 第 一 个 特征 图 与 $2 层 中 的 第 1、 
2、3 个 图 相连 。 更 形象 的 表示 如 图 6.21 所 示 。 


[EE ee ee 


0 xX A OK X X xX X X 
E A A X Mm GA X A A X X 
2 A A ix ATA TATA X X ATX 
3 A A A A RPA TA TIX X X X 
4 A A IPA A DPA DA TA ES X 
5 X X A ATXI XTA A 


图 6.20 从 S2 层 到 C3 层 的 连接 结构 


TE 


池 化 层 1 卷 积 层 2 
图 6.21 M S2 层 到 C3 层 
从 图 6.21 中 可 以 看 到 ， 池 化 层 有 6 个 特征 图 ， 这 些 特征 图 经 过 与 卷 
ORK; 的 卷 积 操作 得 到 C3 层 的 16 个 特征 图 ， 其 中 Ki 为 作用 到 S2 层 中 
的 第 j 个 特征 图 并 连接 到 C3 层 第 i 个 特征 图 的 卷 积 核 。 图 6.20 展 示 LeNet 
神经 网 络 S2 层 与 C3 层 的 连接 方式 : 一 共有 60 个 不 同 的 卷 积 核 ， 而 每 个 
卷 积 核 有 5x5=25 个 可 训练 的 参数 。C3 层 每 个 特征 图 都 有 一 个 偏 置 ， 
此 该 层 中 可 训练 的 参数 个 数 为 5x 5 60+1x16=1516 个 。 
卷 积 层 可 用 如 下 公式 表示 。 


so=f( Do rk +00] (6.31) 
JEM; 


HOM, 表示 选择 的 输入 图 的 集合 ， 如 图 6.20 所 示 是 LeNet 神 经 网 
络 的 连接 集合 W 。 

(5) 池 化 层 2 即 $4 层 是 一 个 下 采样 层 。 它 由 16 个 5x5 的 特征 图 构 
成 。 与 $2 层 一 样 ， 下 采样 层 可 用 公式 (6.30) 计算 得 到 。 一 共 可 训练 的 
参数 个 数 为 16x2=32 个 。 

(6) 卷 积 层 3 即 C5 层 ， 有 120 个 特征 图 。C5 层 中 120 个 特征 图 的 每 
个 特征 图 都 与 S4 层 的 16 个 特征 图 相连 。 运 算 公 式 为 (6.31) ， 其 中 不 同 
卷 积 核 的 个 数 为 16x 120， 每 个 卷 积 核 可 以 训练 的 参数 为 5x5， 因 此 该 
层 可 训练 的 参数 个 数 为 16x120x5x5+120=48120。 

(7) 全 连接 层 即 F6 层 ， 包 括 84 个 单元 ， 与 C5 层 全 连接 。 这 一 层 和 
普通 的 前 向 神经 网 络 没 有 任何 区 别 ， 一 共 可 训练 的 参数 个 数 为 84x 


120+84=10164. 
(8) 输出 层 包括 10 个 单元 ， 每 个 单元 有 84 个 输入 ， 每 个 单元 的 输 
出 由 欧式 径 向 基 逆 数 给 出 。 具 体 计算 公 式 为 
Yi 一 X (z; — Wi)? 


其 中 2 为 F6 层 的 输出 ， yi 为 输出 。 
至 此 ， 我 们 详细 介绍 了 典型 卷 积 神经 网 络 的 构成 。 
下 面 我 们 再 来 了 解 卷 积 神经 网 络 是 如 何 反 向 传播 的 L101] 。 


卷 积 神经 网 络 反 向 传播 包括 卷 积 核 梯度 的 求解 和 闻 化 层 梯 度 的 求 
解 ， 下 面 一 一 介绍 。 


60 
j "| PE 
l BY Db! 1) 
第 ! 一 1 层 BLE 第 /十 ] 层 
池 化 层 卷 积 层 池 化 层 


图 6.22 卷 积 神经 网 络 卷 积 层 
第 一 ， 卷 积 核 梯度 的 求解 。 
和 前 向 神经 网 络 的 反 向 梯度 计算 过 程 一 样 ， 卷 积 神经 网 络 也 需要 
先 计算 当前 层 的 残 差 。 如 图 6.22 所 示 ， 根 据 网 络 结构 ， 当 前 层 的 残 差 
OO 由 下 层 采 样 层 64*” 反 向 传播 得 到 ， 计 算 公式 为 


59 = BPO F(z?) o upr t™)) (6.32) 
有 了 残 差 之 后 ， 损 失 函 数 关于 卷 积 核 的 导数 可 以 写成 
BD = EE) (PS) u (6.33) 


其 中 Py ”为 卷 积 操作 时 ， 与 卷 积 核发 生 作 用 的 第 /一 1 层 卷 积 层 
上 的 patch。 由 于 权 值 共享 ， 与 卷 积 核 相 乘 的 patch 的 个 数 为 第 ! 层 卷 积 
层 特征 图 的 维 数 。 逆 向 传播 计算 卷 积 核 的 梯度 时 ， 权 重 共 享 主 要 体现 
在 要 将 参与 相同 卷 积 核 运 算 的 所 有 patch 加 起 来 ， 因 此 (6.33) 式 是 一 
个 加 和 的 形式 。 

第 二 ， 池 化 层 梯 度 的 求解 。 

如 图 6.23 所 示 为 卷 积 神经 网 络 的 池 化 层 梯度 求解 ， 利 用 (6.27) 可 
求 得 当前 层 的 网 络 残 差 为 


这 Kpa) pee) (6.34) 
j=l 
J ; 
E 
K; 
8” 
下 采样 | 
BP, bP 

| 
第 ! 一 1 层 第 ! 层 第 ! 十 ] 层 
卷 积 层 池 化 层 卷 积 层 


图 6.23 卷 积 神经 网 络 池 化 层 
在 池 化 层 中 ， 梯 度 反 向 传播 时 需要 经 过 下 采样 ， 因 此 定义 下 采样 
为 


d{ = down (x! ?) (6.35 ) 


FA (6.34) 式 和 (6.35) 式 得 到 池 化 层 梯 度 反 向 传播 公式 为 


OE =— (2) (J) 
OB; A 2 (6 Od; Ta 


OE 


一 一 一 (2) 
ðb, 之 (6; ) uv 


6.4 习题 


1. 为 什么 要 引入 值 阔 数 逼 近 ， 它 可 以 解决 哪些 问题 。 
2. 试 着 用 DQN 方 法 玩 雅 达 利 游戏 。 

3. 试 着 比较 DQN 及 其 变种 的 效果 。 

4. 修 改 神经 网 络 的 优化 方法 并 比较 效果 。 


( 6.36 ) 


第 三 篇 基于 直接 策略 搜索 的 强化 学 习 
方法 


7 基于 策略 梯度 的 强化 学 习 方 法 


7.1 基于 策略 梯度 的 强化 学 习 方 法 理论 讲解 


从 本 章 开始 ， 我 们 学 习 强 化 学 习 中 另 一 类 很 重要 的 方法 : 直接 策 
略 搜索 方法 。 如 图 7.1 所 示 为 强化 学 习 方 法 的 分 类 示意 图 。 


is 
SZ 


马尔 科 夫 决策 过 程 MDP (S,A,P,R,y) 


(S,A,P? R? y? ) 


无 模型 的 强化 学 习 方法 


(S,A,P,R,y) 


基于 模型 的 动态 规划 方法 


图 7.1 强化 学 习 方 法 的 分 类 
从 第 1 章 到 第 6 章 ， 我 们 先 阅 述 了 值 函 数 的 方法 。 广 义 值 函数 的 方 
法 包括 策略 评估 和 策略 改善 两 个 步 又。 当 值 函数 最 优 时 ， 策 略 是 最 优 
的 。 此 时 的 最 优 策略 是 贪 楚 策 略 。 贪 禁 策 略 是 指 argmax Qolsa), 


即 在 状态 为 时， 对 应 最 大 行为 值 消 数 的 动作 ， 它 是 一 个 状态 空间 向 动 
作 空 间 的 映射 ， 该 映射 融 是 最 优 策略 。 利 用 这 种 方法 得 到 的 策略 往往 
是 状态 空间 向 有 限 集 动作 空间 的 映射 。 


策略 搜索 是 将 策略 参数 化 ， 即 mo (s) : 利用 参数 化 的 线性 函数 或 非 
线性 函数 (如 神经 网 络 ) 表示 策略 ， 寻 找 最 优 的 参数 ， 使 强化 学 习 的 


目标 


累积 回报 的 期 望 ly Rom 最 大 。 
t=0 


TARAIA AR, FART SAY eB, RTE XcK 
善 策略 ;而 在 策略 搜索 方法 中 ， 我 们 直接 对 策略 进行 迭代 计算 ， 也 就 
是 和 迭 代 更 新 策略 的 参数 值 ， 直 到 累积 回报 的 期 望 最 大 ， 此 时 的 参数 所 
对 应 的 策略 为 最 优 策略 。 


TEIET S APRIL AACA, RAR — TARAA AME 
接 策略 搜索 方法 的 优 缺 点 。 其 实 正 是 因为 直接 策略 搜索 方法 比值 沙 数 
方法 拥有 更 多 的 优点 ， 我 们 才 有 理由 或 动机 去 研究 和 学 习 并 改进 直接 
策略 搜索 方法 。 


(1) 直接 策略 搜索 方法 是 对 策略 7 进行 参数 化 表示 ， 与 值 函数 方 
法 中 对 值 函数 进行 参数 化 表示 相 比 ， 策 略 参数 化 更 简单 ， 有 更 好 的 收 
OHNE 

(2) 利用 值 函 数 方法 求解 最 优 策 略 时 ， 策 略 改善 需要 求解 
argmax Qo(s,4) ， 当 要 解决 的 问题 动作 空间 很 大 或 者 动作 为 连续 集 
时 ， 该 式 无 法 有 效 求 解 。 

(3) 直接 策略 搜索 方法 经 常 采用 随机 策略 ， 因 为 随机 策略 可 以 将 
探索 直接 集成 到 所 学 习 的 策略 之 中 。 

与 值 函 数 方法 相 比 ， 策 略 搜索 方法 也 普遍 存在 一 些 缺 点 ， 比 如 : 

(1) 策略 搜索 的 方法 容易 收敛 到 局 部 最 小 值 ; 

(2) 评估 单个 策略 时 并 不 充分 ， 方 差 较 大 。 


最 近 十 几 年 ， 学 者 们 针对 这 些 缺点 正在 探索 各 种 改进 方法 。 已 经 
成 功 应 用 策略 搜索 方法 的 案例 如 图 7.2 所 示 。 
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TRPO 第 8 章 。 “确定 性 策略 搜索 第 9 章 引导 策略 搜索 第 10 章 
图 7.2 直接 策略 搜索 方法 的 成 功 案例 


从 图 7.2 可 以 看 出 ， 直 接 策 略 搜 索 的 方法 主要 应 用 在 机 器 人 和 游戏 
等 领域 。 本 章 主要 讲解 策略 梯度 的 方法 ， 第 8 章 介绍 TRPO 方 法 ， 第 9 章 
介绍 确定 性 策略 搜索 方法 ， 第 10 章 介绍 GPS 方法 ， 第 11 章 介绍 逆向 强化 
学 习 方法 。 这 些 方 法 之 间 的 关系 可 用 图 7.3 表 示 。 


策略 搜索 方法 
无 模型 的 策略 搜索 方法 


基于 模型 的 策略 搜索 方法 


引导 策略 搜索 (GPS) 
传统 控制 器 + 监督 学 习 


统计 学 方法 


图 7.3 策略 搜索 方法 分 类 

策略 搜索 方法 按照 是 否 利用 模型 可 分 为 无 模型 的 策略 搜索 方法 和 
基于 模型 的 策略 搜索 方法 。 其 中 无 模型 的 策略 搜索 方法 根据 策略 是 采 
用 随机 策略 还 是 确定 性 策略 可 分 为 随机 策略 搜索 方法 和 确定 性 策略 搜 
索 方 法 。 随 机 策略 搜索 方法 最 先 发 展 起 来 的 是 策略 梯度 方法 ; 但 策略 
梯度 方法 存在 学 习 速 率 难 以 确定 的 问题 ， 为 回避 该 问题 ， 学 者 们 又 提 
出 了 基于 统计 学 习 的 方法 和 基于 路 径 积分 的 方法 。 但 TRPO 方 法 并 没有 
回避 该 问题 ， 而 是 找到 了 蔡 代 损失 函数 一 一 利用 优化 方法 在 每 个 局 部 
点 找到 使 损失 函数 单调 非 增 的 最 优 步 长 ， 我 们 在 下 一 章 再 重点 讲解 。 

下 面 我 们 分 别 从 似 然 率 的 视角 和 重要 性 采样 的 视角 推导 策略 梯度 
[13] , 


第 一 ， 从 似 然 率 的 视角 推导 策略 梯度 。 
用 7 表示 一 组 状态 -行为 序列 $0,Wo,…,sH,Un o 


符号 (7) 二 》 R(s,u) 表示 轨迹 7 的 回报 ，P(7;0) 表示 轨迹 


7 出 现 的 概率 ;强化 学 习 的 目标 函数 可 表示 为 


U (8) =#()> Room = > P(r;0) RO) 


强化 学 习 的 目标 是 找到 最 优 参 数 ， 使 得 
maxU (0) = max ) | P(7;0) R(7) , 

这 时 ， 策 略 搜索 方法 实际 上 变 成 了 一 个 优化 问题 。 解 决 优化 问题 
有 很 多 方法 ， 比 如 最 速 下 降 法 、 和 牛顿 法 、 内 点 法 等 。 

其 中 最 简单 、 也 最 常用 的 是 最 速 下 降 法 ， 此 处 称 为 策略 梯度 的 方 
法 ， 即 .ov 三 0ua 十 wVeV(O) ， 问 题 的 关键 是 如 何 计 算 策 略 梯度 
VU (0). 

我 们 对 目标 函数 求 导 : 


VoU (0) =Vo >》 P(7;0) R(7) 
= 》 VP(rig)R(r) 


-> ae V,P (13) R(r) 


VoP (7;9) R(r) 
=D PG Dine) 


i > P(7;0) VologP(7;0) R(T) 


(7.1) 
最 终 策 略 梯 度 变 成 求 VologP(7;9)RR(7T) 的 期 望 ， 这 可 以 利用 经 验 
平均 估算 。 因 此 ， 当 利用 当前 策略 7o 采样 m 条 轨迹 后 ， 可 以 利用 m 条 
轨迹 的 经 验 平均 逼近 策略 梯度 : 


VU (0) ©9= =) > VylogP (1:0) Rr) (72) 
第 二 ， 从 重要 性 采样 的 角度 推导 策略 梯度 。 
目标 函数 为 U (9) =2(> (s,m) = POB] 


利用 参数 boa 产生 的 数据 评估 参数 0 的 回报 期 望 ， 由 重要 性 采样 得 


UO) = > Poa) BCT ROT) 
i (73) 
P(O) 


P (T| Boia) 


= Eroa] RC) 


Va P (7|0) 
Pi (7| oa) 


VoU (0) = Ero, | RC) (7.4 ) 


令 0 一 9uu ， 得 到 当前 策略 的 导数 : 


VoU (9) |o= 6. 


_ Vo P Oe, | 
一 已 -| 请 CT) R(t) (7.5) 


old 


从 重要 性 采样 的 视角 推导 策略 梯度 ， 不 仅 得 出 与 似 然 率 的 视角 相 
同 的 结果 ， 更 重要 的 是 得 到 了 原来 目标 函数 新 的 损失 函数 : 


UO) = Brag) Bey RO) | ， 下 面 我 们 重点 从 直观 上 理解 一 下 人 
然 率 策略 梯度 。 


BTA MRR HES 1S SRR EAE 
VU (6) ~9= =) VologP (736) R(r) 


RE al RATA VelogP(7;0), R(r) 。 


第 一 项 VologP(7;0) 是 轨迹 7 的 概率 随 参 数 0 变化 最 陡 的 方向 。 
参数 在 该 方向 更 新 时 ， 若 沿 着 正方 向 ， 则 该 轨迹 7 的 概率 会 变 大 ; A 
沿 着 负 方 向 更 新 ， 则 该 轨迹 7 的 概率 会 变 小 。 


第 二 项 及 (7) 控制 了 参数 更 新 的 方向 和 步 长 。 刀 (7) 为 正 且 越 大 则 
参数 更 新 后 该 轨迹 的 概率 越 大 ; RO) 为 负 ， 则 降低 该 轨迹 的 概率 ， 抑 
制 该 轨迹 的 发 生 。 

因此 ， 从 直观 上 理解 策略 梯度 时 ， 我 们 发 现 策 略 梯度 会 增加 高 回 
报 路 径 的 概率 ， 减 小 低 回报 路 径 的 概率 。 如 图 7.4 所 示 ， 高 回报 区 域 的 
轨迹 概率 被 增 大 ， 低 回报 区 域 的 轨迹 概率 被 减 小 。 


自 探 索 策略 


a 


名 


图 7.4 策略 梯度 的 直观 理解 示意 图 
前 面 推导 出 策略 梯度 的 求解 公式 为 


PO SE 
VoU (8) ~ 3 = ) ,VologP(r;ib)R(7) 
i=1 


现在 ， 我 们 解决 似 然 率 的 梯度 问题 ， 即 如 何 求 VologP(7;9)。 
BAIT = 50,Vo,… sz ， 则 轨迹 的 似 然 率 可 写成 


7. :0) = [Pott su) - - To (uls! 2) (7.6) 
BH, P(s2,|s),u) 表示 动力 学 ， 无 参数 ， 因 此 可 在 求 导 过 程 
中 消 掉 。 上 有 具体 推导 参见 公式 (7.7) o 


VologP(r ;0) = vos | [Pt sur’) - maul) 


t=0 


H H 
= v, [$ eP (au) + loge) 


H 
= Ws > logre (u®|s® ) 
t=0 


H 
= > Vo log7s (uj”|s;”) 
t=0 


从 公式 (7.7) 的 结果 来 看 ， 似 然 率 梯度 转化 为 动作 策略 的 梯度 ， 
与 动力 学 无 关 ， 那 么 如 何 求 解 策略 的 梯度 呢 ? 
我 们 看 一 下 常见 的 策略 表示 方法 。 
通常 ， 随 机 策略 可 以 写成 确定 性 策略 加 随机 部 分 ， 即 
To = Ue t E 
高 斯 策略 e~N(0,o”) ， 是 均值 为 零 ， 标 准 差 为 c 的 高 斯 分 布 。 
和 值 冰 数 逼 近 一 样 ， 确 定性 部 分 通 单 表 示 成 以 下 方式 。 


线性 策略 : u(s)=¢(8s)T0 5 


径 向 基 策略 : -m(s)=w' G(s), 其 中 


$.(8) =ex(-5 (6-4) "D.(s—14)) ; 
参数 为 0 二 {w, Hi, di} o 


我 们 以 确定 性 部 分 策略 是 线性 策略 为 例 说 明 logre (uP) 是 如 何 
计算 的 。 


Bid (uls) -p (- aa) ， 利 用 该 分 布 采样 ， 


2), AB (su) 代入 ， 得 


TE © _ (s)T@ (i) 
ology (1{?|s60) = Kee = PCS) Wee) 


Oo 
其 中 方差 参数 o” 用 来 控制 策略 的 探索 性 。 
由 此 ， 推 导出 策略 梯度 的 计算 公式 : 


m H 
nm 1 9 . 4 
VU (6) ~G=— Y È Vloga (uP Rl)] (7.8) 


i=1 \t=0 


(7.8) 式 的 策略 梯度 是 无 偏 的 ， 但 方差 很 大 ， 我 们 在 回报 中 引入 
常数 基线 b 减 小 方差 。 
首先 ， 证 明 当 回报 中 引入 常数 b 时 ， 策 略 梯 度 不 变 ， 即 


VU (0) ~g= 二 > VologP (T®;0)R(T®) 
(=i 


= m 2 VologP (78) (R(r) —b) 


证 明 
E[V,logP (7;0) 6] 
= > P(1;9) VologP (1;9)b 
YeP BOE 0)b 
一 > VoP(7;0)b 


=V b> P(r; o») 

= Vob 

=0 
然后 ， 我 们 求 使 得 策略 梯度 的 方差 最 小 时 的 基线 b。 
$X =V,logP(7r;0) (R(T ) —b) ， 则 方差 为 


Var(X) alee a 
方差 最 小 处 ， 方 差 对 b 的 导数 为 零 ， 即 


OVar(X) OX 
ob =5(x = k 


BY = EX 与 b 无 关 。 
将 X 代 入 ， 得 


i Volog7, op | 


i=1 


5 (yo Volog7 (us |s{” ) | 


i=1 


(7.9) 


除了 上 面 介 绍 的 增加 基线 的 方法 外 ， 修 改 回 报 函 数 也 可 以 进一步 
减 小 方差 ， 此 处 不 再 介绍 。 
引入 基线 后 ， 策 略 梯度 公式 变 成 


V,U (0) ~ 530 Vologre (u®|s®) (R(T®) 一 0) (7.10) 


i=1 


其 中 , b 取 (7.9) 式 。 我 们 进一步 分 析 公 式 (7.10) 。 在 公式 
(7.10) H, EAEE u 所 对 应 的 Vologre (ur? |ss” ) 都 乘 以 相同 的 该 


轨迹 的 总 回报 (R(T7”) —b), ， 如 图 7.5 所 示 。 


T: xo to xr UA CA 


图 7.5 REINFORCE 方 法 


然而 ， 当 前 的 动作 与 过 去 的 回报 实际 上 是 没有 关系 的 ， 即 
E,,[Oologms(u|a.,t)r;] =0 for j<t 


因此 ， 我 们 可 以 修改 (7.10) 中 的 回报 函数 ， 有 两 种 修改 方法 。 
第 一 种 方法 称 为 G (PO) MDP， 如 图 7.6 所 示 。 


1 m H-1 j . . 
VUO 一 二 > > B Vologro (ufls®) (r; — 6) 
0 \t=0 


1 一 1 j= 


T: Xo) 下 S2, Uz2, 2... 


图 7.6 G (PO) MDP 方 法 


第 二 种 方法 称 为 策略 梯度 理论 ， 如 图 7.7 所 示 。 


1 m H-1 . | H-1 . 
VU (0) ~ — X J Vologms (uls) > (R(s{”) —b) 
4 一 1 t=0 k=t 


t: MO a ie EE 


图 7.7 策略 梯度 理论 
为 了 使 方差 最 小 ， 可 以 利用 前 面 的 方法 求解 相应 的 基线 b。 


7.2 基于 gym 和 TensorFlow 的 策略 梯度 算法 实现 
本 节 我 们 需要 使 用 TensorFlow， 为 此 先 安装 一 下 CPU AR AY 


TensorFlowo 


7.2.1 安装 Tensorflow 


TensorFlow 的 安装 步骤 如 下 。 

O 在 终端 激活 虚拟 环境 (安装 方法 请 参见 1.5.1 节 ) : source 
activate gymlab 

D 安装 的 TensorFlow 版 本 为 1.0.0，Python=3.5。 命 令 如 下 : 

pip install--ignore-installed--upgrade 


https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.0.0- 
cp35-cp35m-lin ux_x86_64.whl 

根据 该 命令 所 安装 的 TensorFlow 是 无 GPU 的 ， 无 GPU 的 TensorFlow 
可 以 满足 学 习 的 需求 ， 如 果 要 做 项 目 ， 则 建议 安装 GPU 版 的 


TensorFlowo 
O 安装 一 个 绘图 模块 ， 命 令 如 下 : 
pip3 install matplotlib 
7.2.2 策略 梯度 算法 理论 基础 
我 们 在 7.1 节 前 述 了 策略 梯度 的 理论 推导 ， 随 机 策略 的 梯度 如 下 : 
Vol (To) = a an [Vo logro (a|s) Q” (s, a)] 


7.1 节 已 介绍 当 随 机 策略 是 高 斯 策略 时 随机 梯度 的 计算 公式 ， 当 随 
机 策略 并 非 高 斯 策略 时 ， 该 如 何 优化 参数 ? 


我 们 仍然 以 gym 环 境 中 典型 的 小 车 倒立 摆 系 统 为 例 ， 说 明 如 何 利 用 
策略 梯度 理论 解决 倒立 摆平 衡 问题 。 小 车 倒立 摆 系 统 如 图 7.8 所 示 。 


- o 


图 7.8 小 车 倒立 摆 系 统 

7.8 是 基于 gym 构建 的 小 车 倒立 摆 环 境 ， 可 以 看 出 小 车 倒立 摆 
的 状态 空间 为 [z,ż,0,0], 动作 空间 为 40, 1 。 当 动作 为 1 时 ， 施 加 正 
向 的 力 10N; 当 动 作为 0 时 ， 施 加 负 向 的 力 10N。 

由 于 动作 空间 是 离散 的 ， 我 们 设计 随机 策略 为 Softmax 策略 。 那 
么 ， 如 何 构 建 Softmax 策 略 ， 如 何 构建 损失 函数 ， 并 将 强化 学 习 问 题 变 
成 一 个 优化 问题 ? 

7.2.3 Softmax 策 略 及 其 损失 函数 


我 们 先 设计 一 个 前 向 神经 网 络 策略 ， 如 图 7.9 所 示 。 


exp (fo) 
fo exp (fo) + exp (fi) 
fi | exp (fi) 


| - exp(fo) + exp (fi) 
| layer2 softmax 


input 


layer| 


图 7.9 Softmax 策 略 
该 神经 网 络 Softmax 策 略 的 输入 层 是 小 车 倒立 摆 的 状态 ， 维 数 为 
4; 最 后 一 层 是 softmax 层 ， 维 数 为 2 (softmax 常 常 作为 多 分 类 器 的 最 后 
一 层 ) o 
我 们 需要 了 解 的 一 个 最 基本 的 概念 是 何 为 Softmax 层 ? 


如 图 7.9 所 示 ， ee (layer2) 的 输出 为 z， 那 么 softmax 层 是 指 
对 z 作 用 一 个 softmax 国 数 ， 即 


a(z),;= 


, for j=1, =,K 
e” 
k=1 


Xi FSoftmax Rig, REECH APAN REY 


ol 
(als) = -一 


如 图 7.9 所 示 ， fe 对 应 layer2 的 输出 。 e” 表示 动作 a 所 对 应 的 
softmax 输 出 。 上 面 的 式 子 表示 智能 体 在 状态 为 s 时 采用 动作 a 的 概率 
是 关于 9 的 函数 ， 可 直接 对 其 求 对 数 ， 然后 求 导 后 代入 策略 梯度 公 
式 ， 利 用 策略 梯度 的 理论 更 新 参数 。 

不 过 ， 我 们 可 以 将 问题 转化 一 下 ， 对 于 一 个 episode， 策 略 梯度 理 
论 的 一 + BF BRE WR RR 数 为 
L=- E, p a-m, logne (als)Q” (s,a)] 的 一 步 更 新 。 


而 损失 函数 可 写 为 
L=- E, p a-n, Llogms (als)Q” (s,a)] =- J Pr, 1089, Q” (s,a) 


其 中 一 J Pr, 1084r, IEN Ho 


在 实际 计算 中 ，Pw, 由 未 更 新 的 参数 策略 网 络 采 样 ，loggq, 则 将 
状态 直接 代入 ， 是 参数 0 的 一 个 遂 数 。 比 如 ， 当 前 动作 由 采样 网 络 
To, (8) 产生 为 a=1， 则 


exp (fo) exp (fi) | 
exp (fo) +exp (f1) exp (fo) + exp (fi) 


exp (fi) 
x, logg, = log ——..— n 
Pr,, 084 S exp (fo) + exp (f) 


Me Mis SIC 3 BY FS REE AR softmaxke, WIAA ATA 
些 ， 接 下 来 我 们 看 看 如 何 将 理论 变 成 代码 。 

刚才 已 经 将 策略 梯度 方法 转化 为 一 个 分 类 问题 的 训练 过 程 ， 其 中 
PARMA 


p= [0,1], 1=| 


L=- E, pa-r, Llogms (a|s)Q” (s,a)] =- J Pr, logq, Q" (s,a) 


那么 该 网 络 的 输入 数据 是 什么 呢 ? 它 的 输入 数据 有 以 下 三 项 。 

第 一 项 ， 小 车 倒立 摆 的 状态 s; 

第 二 项 ， 作 用 在 小 车 上 的 动作 a 

第 三 项 ， 每 个 动作 对 应 的 累积 回报 v。 

下 面 我 们 一 一 介绍 如 何 获 得 这 些 输入 。 

第 一 项 ， 小 车 倒立 摆 的 状态 s 是 与 环境 交互 得 到 的 ; 第 二 项 ， 作 用 
在 小 车 上 的 动作 a 是 由 采样 网 络 名 得 到 的 ， 在 训练 过 程 中 充当 标签 的 作 
H; 第 三 项 ， 每 个 动作 对 应 的 累积 回报 是 由 该 动作 后 的 回报 进行 累积 
并 经 归 一 化 处 理 得 到 的 。 

因此 ， 该 代码 可 以 分 为 几 个 关键 的 阔 数 : 策略 神经 网 络 的 构建 ， 
动作 选择 函数 、 损 失 阔 效 的 构建 ， 累 积 回报 函 效 v 的 处 理 。 下 面 我 们 一 


一 介绍 。 


7.2.4 基于 TensorFlow 的 策略 梯度 算法 实现 


1. 策 略 神经 网 络 的 构建 

构建 一 个 神经 网 络 ， 最 简单 的 方法 就 是 利用 现 有 的 深度 学 习 软 
件 ， 从 兼容 性 和 通用 性 考虑 ， 我 们 选择 TensorFlow， 待 构建 的 策略 网 络 
结构 如 图 7.10 所 示 。 


exp (fo) 
h A exp (fo) + exp (fi) 
A, O exp (fi) 


全 - exp(fo) + exp (fi) 
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图 7.10 策略 神经 网 络 
该 神经 网 络 是 最 简单 的 前 向 神经 网 络 ， 输 入 层 为 状态 s， 共 4 个 神 
经 元 ， 第 一 个 隐藏 层 包括 10 个 神经 元 ， 激 活 函 数 为 ReLU; 输出 是 动作 
的 概率 ， 动 作 有 2 个 ， 因 此 第 二 层 为 2 个 神经 元 ， 没 有 激活 图 数 ; 最 后 
一 层 为 Softmax 层 。 
将 这 话 翻 译 成 TensorFlow 语 言 的 表述 如 下 。 


def build net(self): 
with tf.name_scope('input'): 


# 创 建 占 位 符 作 为 输入 


self. ti obs = tf.placeholder (tf.float32, [None, 
self.n features], name="observations") 
self.tr acts = tf.placeholder(tr.into2, [None, ], 
name="actions num") 
self.tf vt = tt.placeholder(ti.fleat32, (None, J, 
name="actions value") 
# 第 一 层 


layer = tf.layers.dense ( 
inputs=self.tf_ obs, 
units=10, 
activation=tf.nn.tanh, 
kernel initializer=tf.random normal initializer (mean=0, 


stddev=0.3), 
bias initializer=tf.constant initializer(0.1), 
name='fcl', 
) 
# 第 二 层 


all act = ttylayers:densel 
inputs=layer, 
units=self.n actions, 
activation=None, 
kernel initializer=tf.random normal initializer (mean=0, 


stddev=0.3), 


bias initializer=tf.constant initializer(0.1), 
name='fc2' 


) 
# 利 用 softmax 函数 得 到 每 个 动作 的 概率 


self.all act_prob=tf.nn.softmax(all act, name='act_prob') 


全 部 代码 在 github (https : //github.com/gxnk/reinforcement- 
learning-code) 的 policynet.py 文 件 中 。 


2. 动 作 选 择 函 数 


动作 选择 阔 数 是 根据 采样 网 络 生成 概率 分 布 ， 利 用 该 概率 分 布 去 
采样 动作 ， 具 体 代码 如 下 。 
# 定 义 如 何 选择 行为 ， 即 状态 为 时 的 行为 采样 ， 根 据 当前 的 行为 概率 分 布 采样 


def choose action(self, observation): 


prob weights= self.sess.run(self.all act prob, 
feed dict={self.tf_obs:observation|[np.newaxis, :]}) 

# 按 照 给 定 的 概率 采样 

action = np.random.choice (range (prob weights.shape[1]), 


p=prob weights.ravel ()) 
return action 


其 中 国 数 nprandom.choice 是 按照 概率 分 布 p=prob_ weights.ravel 
() 采样 的 函数 。 

3. 构 建 损 失 函 数 

理论 部 分 我 们 已 说 明 损失 函数 为 


了 三 一 已 .om[logro(als)@" (s,a)] =- J Pr, 1089, Q” (s,a) 


RI NWF LA RAR IRA EX. A RE CRIES EBT. 
HE MIRA REX 
with tf.name_scope('loss'): 
neg log prob = 
tf.nn.sparse softmax cross entropy with logits(logits=all act,la 
bels=self.tf acts) 
loss = tf.reduce_mean(neg log prob*self.tf_vt) 


4. RIERA Dv ASAE 


def discount and norm rewards (self): 

# 折 扣 回 报 和 

discounted ep rs =np.zeros like(self.ep rs) 

running add = 0 

for t in reversed(range(0, len(self.ep rs))): 
running add = running add * self.gamma + self.ep rs[t] 
discounted_ep rs[t] = running add 

# 归 一 化 

discounted ep rs-= np.mean (discounted ep rs) 

discounted ep rs /= np.std(discounted ep rs) 

return discounted_ep rs 


AS CRAG AZE ZR, RARR, MAMAN, RASA, 
学 习 的 过 程 就 简单 了 ， 只 需要 调用 下 面 的 语句 即 可 。 
# 定 义 训 练 , 更 新 参数 
with tf.name_scope('train'): 
self.train op = 
tf.train.AdamOptimizer(self.lr) .minimize (loss) 


该 训练 过 程 为 采用 自 适 应 动量 的 优化 方法 。 学 习 优 化 的 过 程 如 
Fo 
# 学 习 ， 以 便 更 新 策略 网 络 参数 ， 一 个 episode 之 后 学 一 回 
def learn(self): 
# 计 算 一 个 episode 的 折扣 回报 
discounted ep rs norm = self. discount _ and norm rewards () 
# 调 用 训练 函数 更 新 参数 
selt.sess.run(self.train op, feed dict={ 
self.tf_obs: np.vstack(self.ep obs), 
sélf. tE acts: np.array (self.ep as), 
self.tf vt: discounted ep rs norm, 
}) 
# 清 空 episode 数据 
Self. ep obs, self.ep as, Self.ep £8 = []; [I+] 
return discounted ep rs norm 


7.2.5 基于 策略 梯度 算法 的 小 车 倒立 摆 问 题 


有 了 策略 神经 网 络 和 训练 过 程 ， 就 很 容易 解决 小 车 的 问题 了 ， 解 
决 问题 的 基本 框架 如 下 。 

© 创建 一 个 环境 ; 

D 生成 一 个 策略 网 络 ; 

O 迭代 学 习 : 通过 与 环境 交互 ， 学 习 更 新 策略 网 络 参数 ; 

利用 学 到 的 策略 网 络 测试 小 车 倒立 摆 系 统 。 

7.3 习题 

1. 采 用 直接 策略 搜索 方法 的 好 处 。 

2. 策 略 梯度 理论 中 有 哪些 减 小 策略 梯度 误差 的 方法 ? 

3. 运 用 策略 梯度 理论 解决 打 乒 乓 球 游戏 。 

4. 尝 试 使 用 OpenAI 的 其 他 软件 ， 如 baseline，roboschool 等 。 


8 基于 置信 域 策略 优化 的 强化 学 习 方 法 


本 章 我 们 介绍 TRPO 。TRPO 是 英文 单词 Trust Region Policy 
Optimization 的 简称 ， 翻 译 成 中 文 是 “置信 域 策 略 优化 ”。 该 算法 由 伯 克 
利 的 博士 生 John Schulman 提 出 ， 他 已 于 2016 年 博士 毕业 。Schulman 的 
导师 是 强化 学 习 领 域 的 大 神 Pieter Abbeel，Abbeel 是 伯克利 的 副教授 ， 
也 是 OpenAI 的 研究 科学 家 ， 是 机 器 人 强化 学 习 领 域 最 有 影响 力 的 人 之 


追根 溯源 的 话 ，Abbeel 毕 业 于 斯 坦 福 大 学 ， 导 师 是 Andrew Ng (R 
恩 达 ) 。 相 信 搞 机 器 学 习 的 人 应 该 都 听 说 过 吴 大 神 或 者 听 过 他 的 课 
吧 。 有 意思 的 是 ， 吴 恩 达 博 士 毕 业 于 伯克利 大 学 ， 之 后 在 斯 坦 福 任 
教 ， 这 和 Abbeel 的 经 历 正 好 相反 ， 由 此 看 来 美国 名 校 间 人 才 互 换 的 情 
况 还 是 挺 普 遍 的 。Abbeel 博 士 做 的 课题 是 逆向 强化 学 习 (学 徒 学 
习 ) 。 再 进一步 追根 溯源 ， 吴 恩 达 的 导师 是 伯克利 的 Michael IL.Jordan， 
一 位 将 统计 学 和 机 器 学 习 联 合 起 来 的 大 师 级 人 物 .……. 

话题 扯 得 好 像 有 点 远 了 ， 其 实 不 然 。 说 那么 多 背景 其 实 和 本 章 的 
主题 有 关 。 从 师承 关系 上 可 以 看 出 ， 这 个 学 派 传承 于 统计 学 大 师 
Michael I.Jordan， 所 以 他 们 最 有 力 的 杀手 铀 是 统计 学 习 。 从 宏观 意义 上 
看 ，TRPO 将 统计 玩 到 了 一 个 新 高 度 。 在 TRPO 出 来 之 前 ， 大 部 分 强化 
学 习 算法 很 难保 证 单调 收敛 ， 而 TRPO 却 给 出 了 一 个 单调 的 策略 改善 方 
Eo PRU, 不管 你 从 事 什么 行业 ， 如 果 想 用 强化 学 习 解 决 问题 ，TRPO 
都 是 一 个 不 错 的 选择 。 所 以 本 章 确实 很 关键 。 

如 图 8.1 所 示 为 直接 策略 搜索 方法 的 分 类 ， 根 据 模 型 是 否 已 知 ， 策 
略 搜索 方法 分 为 无 模型 的 策略 搜索 方法 和 基于 模型 的 策略 搜索 方法 。 
在 无 模型 的 策略 搜索 方法 中 ， 根 据 策略 是 否 随机 可 以 分 为 随机 策略 搜 
索 方 法 和 确定 性 策略 搜索 方法 。 在 随机 策略 搜索 方法 中 最 先 发 展 起 来 
的 是 策略 梯度 的 方法 。 然 而 ， 策 略 梯度 方法 最 大 的 问题 是 步 长 的 选取 
问题 ， 若 步 长 太 长 ， 策 略 很 容易 发 散 ; 若 步 长 太 短 ， 收 敛 速 度 很 慢 。 
为 了 避免 步 长 问题 ， 学 者 们 提出 基于 统计 学 习 的 策略 搜索 方法 和 基于 
路 径 积 分 的 策略 搜索 方法 。 虽 然 这 些 方 法 能 在 一 定 程度 上 避免 直接 利 
用 步 长 ， 但 这 些 方法 也 丢掉 了 梯度 方法 很 容易 用 来 处 理 大 规模 问题 的 


优势 。TRPO 没 有 选择 回避 更 新 步 长 的 问题 ， 而 是 正面 解决 这 个 问题 。 
本 章 会 循序 介绍 TRPO 方 法 。 
策略 搜索 方法 


无 模型 的 策略 搜索 方法 


基于 模型 的 策略 搜索 方法 


引导 策略 搜索 (GPS): 
传统 控制 器 + 监督 学 习 


图 8.1 策略 搜索 方法 分 类 
8.1 理论 基础 


第 7 章 简要 介绍 了 策略 梯度 的 方法 ， 相 当 于 入 门 的 介绍 ， 在 策略 梯 
度 方法 中 还 有 很 多 有 意思 的 课题 ， 比 如 相 容 函 数 法 、 自 然 梯度 法 ， 等 
等 。 但 Shulman 在 博士 论文 中 已 证 明 ， 这 些 方 法 其 实 都 是 TRPO 弱 化 的 
特例 ， 在 这 里 重 提 是 为 了 强调 TRPO 的 强大 [13]。 

根据 策略 梯度 方法 ， 参 数 更 新 方程 式 为 


Drew = hoa + aVod ( 8.1 ) 


策略 梯度 算法 的 硬 伤 就 在 更 新 步 长 ， 当 步 长 不 合适 时 ， 更 新 的 参 
数 所 对 应 的 策略 是 一 个 更 不 好 的 策略 ， 当 利用 这 个 更 不 好 的 策略 采样 
学 习 时 ， 再 次 更 新 的 参数 会 更 差 ， 因 此 很 容易 导致 越 学 越 差 ， 最 后 月 
溃 。 所 以 ， 合 适 的 步 长 对 于 强化 学 习 非 常 关 键 。 

什么 才 是 合适 的 步 长 ? 

合适 的 步 长 是 指 当 策略 更 新 后 ， 回 报 孙 数 的 值 不 能 更 差 。 那 么 如 
何 选择 步 长 ? 或 者 说 ， 如 何 找到 新 的 策略 使 新 的 回报 函数 的 值 单调 增 
长 ， 或 单调 不 减 ? 这 就 是 TRPO 要 解决 的 问题 。 


FAT 表示 一 组 状态 -行为 序列 $0,Wo,*… SH, Un on (iL 5 GRR 
数 为 


na) = Es > JY caD) 


XE, RIAT 表示 策略 。 


上 文 已 提 太 ，TRPO 是 要 找到 新 的 策略 使 回报 钞 数 单调 不 减 。 一 个 
自然 的 想法 是 能 否 将 新 的 策略 所 对 应 的 回报 函数 分 解 成 日 的 策略 所 对 
应 的 回报 函数 加 其 他 项 。 这 样 ， 只 要 新 的 策略 所 对 应 的 其 他 项 大 于 等 
于 零 ， 那 么 新 的 策略 就 能 保证 回报 函数 单调 不 碱 。 这 样 的 等 式 其 实 是 
存在 的 ， 它 是 2002 年 由 Sham Kakade 提 出 来 的 HL4] 。TRPO 的 起 点 便 是 
这 样 一 个 等 式 : 


77 (元 ) = nr) ag by y Ar Geo (8.2) 


这 里 我 们 用 7 表示 旧 的 策略 ， 用 7 表示 新 的 策略 。 其 中 


A, (8,4) =Q; (8,4) —Vr(s) = Bp,olr(s) +W” (S°) —V"(s)] 
ELA EX. 
此 处 我 们 再 花 点 笔墨 介绍 下 Q (3,0) — V, (8) 为 什么 会 被 称 为 优 


势 函 数 ， 这 个 优势 到 底 是 指 和 谁 相 比 的 优势 ? 我 们 以 大 家 熟悉 的 树 状 
图 来 前 述 ， 如 图 8.2 所 示 。 


V.(s) = (a,|s)Q,(s,a,) +T (a|s)Q,(5, a2) 
A(s,a;) = Q.(s,a1) — V,(s) 


Q,.(8, a1) Q,,.($, a2) 


图 8.2 优势 函数 示意 图 

图 8.2 中 的 值 函数 Y(s) 可 以 理解 为 在 该 状态 s 下 所 有 可 能 动作 所 对 
应 的 动作 值 函数 乘 以 采取 该 动作 的 概率 的 和 。 通 俗 的 说 法 是 ， 值 函数 
V (s) 是 该 状态 下 所 有 动作 值 函 数 关 于 动作 概率 的 平均 值 。 而 动作 值 函 
数 Q(s,a) 是 单个 动作 所 对 应 的 值 函 数 ，Q(s,a) —V,(s) 能 评价 当前 
动作 值 函 数 相对 于 平均 值 的 大 小 。 所 以 ， 这 里 的 优势 指 的 是 动作 值 函 
数 相 比 于 当前 状态 的 值 函数 的 优势 。 如 果 优势 函数 大 于 零 ， 则 说 明 该 
动作 比 平 均 动作 好 ， 如 果 优 势 图 数 小 于 零 ， 则 说 明 当 前 动作 不 如 平均 
动作 好 。 

回 到 正题 上 来 ， 我 们 下 面 给 出 公式 (8.2) 的 证 明 。 

证 明 


B| > ‘A, G00) 


Bowl 7 aCe (s) + W" (8:41) — V” (s) ) 


an D7 (r(s,)) 十 Srov" (8:41) -v"(s)) 


= E, i y* (r(s,) ) +E, l-V" (so)] 


=n (ï) —n(r) 
此 处 详细 讲解 如 下 。 
第 一 个 等 号 是 代入 优势 函数 的 定义 ; 
第 二 个 等 号 是 把 第 一 项 和 后 两 项 分 开 写 ，; 
第 三 个 等 号 是 将 第 二 项 展开 ， 相 消 ， 只 剩 -V"(so) ， 而 s0~7 St 
于 so~T ， 因 为 两 个 策略 都 从 同一 个 初始 状态 开始 ， 而 V"(s0) 三 7(7) 


o 


为 了 在 等 式 (8.2) 中 出 现 策略 项 ， 我 们 需要 对 公式 (8.2) 进一步 
加 工 转化 。 如 图 8.3 所 示 ， 我 们 对 新 旧 策 略 回 报 差 进 行 转化 。 


图 8.3 TRPO 中 最 重要 的 等 式 
优势 函数 的 期 望 可 以 写成 下 面 这 样 : 


n) =n) 十 》 > P(s,=slt) > Zlals)y'A,(s,a) (8.3) 
其 中 Ps=slifols) 为 (sa) 的 联合 概率 ， 
>》 (als) 7'A, (sq) 为 求 对 动作 a 的 边际 分 布 ， 也 就 是 说 在 状态 s 


a 


下 对 整个 动作 空间 求 和 ; Z P= SE 为 求 对 状态 s 的 边际 分 布 ， 
即 对 整个 状态 空间 求 和 ; 》 Y P(s,=slit) 求 整个 时 间 序 列 的 和 。 


我 们 定义 pi(s) =P (s0 =8) 十 YP(s1=s) +y’?P(s.=s) 十 … 
则 


n(i) =n) + X` p(s) > Z (als) At (s,a) (gA) 


如 图 8.4 所 示 。 


第 t 步 出 现 s 的 概率 ”状态 为 s 时 处 动作 进 
Se 行 加 和 


n(7) =n(r) + y > Ps, = s| 7 (a\s)y' A,(s,a) 


=n(r) + > ,pi(s) X ` Z (als) A" (s,a) 


图 8.4 代价 函数 推导 

注意 : 这 时 状态 s 的 分 布 由 新 的 策略 元 产生 ， 对 新 的 策略 严重 依 
赖 。 

TRPO 算 法 在 推导 过 程 中 运用 了 四 个 技巧 ， 我 们 分 别 前 述 。 

(1) TRPO 的 第 一 个 技巧 。 

我 们 引入 TRPO 的 第 一 个 技巧 处 理 状态 分 布 。 我 们 忽略 状态 分 布 的 
变化 ， 依 然 采 用 旧 策 略 所 对 应 的 状态 分 布 。 这 是 对 原 代 价 函 数 的 第 一 
次 近似 。 其 实 ， 当 新 旧 参 数 很 接近 时 ， 我 们 用 旧 的 状态 分 布 代 替 新 的 
状态 分 布 也 是 合理 的 。 这 时 ， 原 来 的 代价 函数 变 成 


L) =n) + X pr(s) > # (als) A" (s, a) (8.5) 


我 们 看 (8.5) 式 的 第 二 项 策略 部 分 ， 这 时 的 动作 a 是 由 新 的 策略 元 
产生 的 ， 可 是 新 的 策略 元 是 带 参数 0 的 ， 而 该 参数 是 未 知 的 ， 因 此 无 
法 用 来 产生 动作 。 这 时 ， 我 们 引入 TRPO 的 第 二 个 技巧 。 

(2) TRPO 第 二 个 技巧 。 
TRPO 的 第 二 个 技巧 是 利用 重要 性 采样 处 理 动作 分 布 。 


> To (als,,) Ao, (s,,,a) = Ea- E (alsn) 
qals) 


Ao,, (Sn, a) 


我 们 ] FR 利 用 


an JRE Paw (ET peg (als,) = ro, (als) ， 蔡 代 
回报 函数 变 为 
LG) =n) + Bon con | OFN (a) (8.6) 
woul Fa) 


接 下 来 ， 我 们 看 一 下 替代 回报 函数 (8.6) 式 和 原 回 报 函 数 (8.4) 
式 之 间 的 关系 。 

通过 比较 发 现 ， (8.4) 式 和 (8.6) 式 的 唯一 区 别 是 状态 分 布 的 不 
Eo HLT) NT 都 看 成 是 策略 元 NRW, WL. (7), nr) 在 策 


Ls, (ro = n (Toa) 
Vo Ln, (To) | 0 = 0 = Vo n (To) | 0 = baa 


ld 


可 以 用 图 8.5 来 表示 。 


(8.7) 


n(®F /L(@-CKL \ L(®) 


图 8.5 回报 函数 与 替代 回报 函数 示意 图 
在 lu 附近 ， 能 改善 L 的 策略 也 能 改善 原 回 报 函 数 。 问 题 是 步 长 多 
大 呢 ? 
我 们 再 次 引入 第 二 个 重量 级 的 不 等 式 : 


nr) SL, (a) — CD (1,7) 
Qey (8.8 ) 
(7) 
下 面 我 们 来 证 明 (8.8) 不 等 式 。 
从 公式 (8.2) 出 发 ， 为 了 证 明 的 方便 ， 我 们 重新 写 一 遍 回 报 函 数 
和 替代 回报 函数 。 


where C 一 


回报 函数 : nE) =r) + Bx È an 加 


MEERLE L) 一 9(nD +E 9° AG) 

两 者 的 差别 在 轨迹 分 布 上 ， 回 报 函数 是 关于 新 策略 的 期 望 ; 替代 
回报 函数 是 关于 | 旧 策 略 7 的 期 望 。 

首先 ， 我 们 定义 一 下 策略 对 。 (1,7) 是 一 个 a 耦合 的 策略 对 ， 如 
果 它 定义 了 一 个 联合 分 布 (wz)ls ， 对 所 有 的 状态 s 都 满足 
P(axals) <a ( 即 在 每 个 状态 ，(r, 和 给 我 们 一 对 动作 ， 这 对 动作 
不 同 的 概率 入 a ) 。 考 虑 用 新 策略 元 产生 一 条 轨迹 ， 比 如 在 每 个 时 间 
$i, RIRE As. ， 让 mn 表示 当 ;< t 时 ，a, + 的 次 数 。 


E, «| A7 (8) | = P(n,=0)E, -rin-0| A™* (s,) | +P (u > 0) E,-nin>0 | A™* (8) | 
WFAA, BEES IRIE P (mn, =0) = (1 一 Qa)*; 
完全 相同 时 为 


有 | A™* (s,) | = Upean | An (s,) | 
因此 等 式 变 为 


B,+|4**(s)] = 1—a)'By-nn,-0[4"*(s)| + (1— d—a)") Ban>ol A" (s,) | 
两 边 同 时 减 去 
E-a | A% (8) | = (1—a) ‘Ein =0| A™*(s,) | + (1— (1 一 四 站 机 yol A**(s,) | 
得 到 
E, a| A77 (si) | — En- |477 (s)| = (1— (1—o)’) 
(-E,,-rin>0| A"*(s,) | 十 为 -各 >o| A™(s,) |) 


|B,-A**(s) | —B,-.[A**(s)]| <@-(G-a)')e+e) (8ga) 


A™*(s)| , 


By, £= max 
s 


ATXA, RII MAER RES SAR EX Z ial BY 
EMA 


n(@) —£,(@) aps Za) -| 2 
-> (Eral A**(s,) | — B.-r|A"*(s)]) 


将 (8.8a) 式 代 入 (8.8b) 式 得 到 


( 8.8b ) 


E,|A**(s,) | — En- [4 (s,) ]| 


In) —L, (|< Soy! 
a he 


=2 o_O 7) 
_ Zeya 
=y = a) 
(8.8) 不 等 式 证 明 结束 。 
在 (8.8) HH, Dalar, T) 是 两 个 分 布 的 KL 散 度 ， 我 们 看 看 
(8.8) 式 给 了 我 们 什么 启示 。 
首先 ， 该 不 等 式 定义 了 ”7(7) 的 下 界 ， 我 们 定义 该 下 界 为 
M: (1) = Lr, (r) — CDE (Ti, T) o 
接 下 来 我 们 利用 这 个 下 界 证 明 策略 的 单调 性 。 
证 明 
n( miss) > Mi (mi 41) (a) = M; (a5) 
Mn (iva) — (mi) = M; (mi41) — M (mi) 
如 果 新 的 策略 il 能 使 W mA, PARAS Ht 
M: (Ti+) 一 Mr 20 , WW NT) — nr) 20, MEM: 最 大 
的 新 策略 就 是 我 们 一 直 苦 苦 寻 找 的 要 更 新 的 策略 。 那 么 如 何 得 到 它 


呢 ? 
该 问题 可 形式 化 为 


maximize [Lo (0) — CDE (Oia, 0) | 
如 果 利 用 惩罚 因子 C， 则 每 次 迭代 步 长 很 小 ， 因 此 问题 可 转化 为 


EAC OW Cn) 


maximize E,- , a- 
6 $~ Pa ya 2 No ES (als) ( 8 9 ) 


subject to DRE” (0%4,0) <6 
TRENE, ANBLASHWRKA, At RR DRE Ooa 0) 


有 无 穷 多 ， 问 题 不 可 解 。 
(3) TRPO 第 三 个 技巧 
在 约束 条 件 中 ， 利 用 平均 KL 散 度 代替 最 大 KL 散 度 ， 即 


subject to Dee" (Oo1a,9) <6 


(4) TRPO 第 四 个 技巧 
S~ Posa 7? 8~T6,., 


最 终 TRPO 问 题 化 简 为 
To \QIS 
LACO] 


maximize bE,, a-r | 
6 old old Mo, (als) ( 8.10 ) 


subject to Esm [Dez (to,,(-|s)||toCls))] <6 
(8.10) 式 仍 然 很 难 写 成 代码 的 形式 。 一 种 更 实际 的 方法 是 对 
TRPO 的 目标 孙 数 进行 一 阶 逼 近 ， 约 束 条 件 进 行 二 阶 有 逼近 。 
TRPO 的 问题 进一步 简化 为 带 不 等 式 约束 的 标准 优化 问题 : 
minimize 一 [Vs Lo, (P)|o-a,, ' (0 一 Ooa) | 
] ( 8.11) 
subject to 了 (Da = 0) T A (baa) (Baa — 0) < 6 


To (als 
rr ee ae BCU (s,a) | ， 约 束 条 件 
old old To (als) 


的 约 简 过 程 如 下 。 


首先 ， 两 个 概率 密度 之 间 的 KL 散 度 由 定义 得 


f(z) 
g(x) 


其 次 ,将 Dkr (Ton 18) || ls) ) 利用 泰勒 进行 二 阶 展开 : 


Dut (f |g) = J f (x)log dr = E, fa log f(z) — E,_2)logg (x) 


Dy, (To, (: |s)| [To (: |s)) ne Brn, logttg,, ~~ Bon, logt 


= bo, [logre (B. [logra] F bo, [Vlogro Ad 二 540" Ey, [V log] as) A 


— = AN" By, [V2logm,,,] Ad 


A=E,, [V logro, ] 4 Fisher 矩阵 。 

由 此 得 到 (8.11) 式 ， 该 式 是 标准 的 优化 问题 的 形式 化 。 

下 面 ， 我 们 利用 共 簿 梯度 的 方法 求解 最 优 更 新 量 。 该 方法 可 以 大 
概 分 成 以 下 两 个 步骤 。 

第 一 步 ， 计 算 一 个 搜索 方向 。 

第 二 步 ， 在 搜索 方向 上 运用 一 个 线性 搜索 方法 确定 更 新 步 长 。 

下 面 我 们 按 这 个 方法 来 操作 。 

(1) 第 一 步 ， 计 算 一 个 搜索 方向 。 

首先 ， 我 们 利用 拉 格 朗 日 乘 子 将 约束 条 件 引 入 目标 函数 中 ， 构 造 
拉 格 朗 日 水 数 为 


L=- [volo (Olo-0 (0— 0)] +A|(0— Bus)” A lOa) (O— Bas) —6 | 
利用 KKT 条 件 ， 我 们 令 L 对 9 一 wa 的 偏 导 数 等 于 零 ， 则 有 


-Vo Lo (O)lo=0,, + AA (Oaa) (0 一 0ua) =0 (8.12 ) 


由 于 入 是 正 实数 ， 令 4d 二 入 (0 一 0wa) ， 则 4d 与 最 优 更 新 量 0 一 0ua 
AA. Md 为 最 优 更 新 量 的 搜索 方向 。 
该 搜索 方向 向 量 满足 (8.12) 式 ， 即 
A (boa) d = Vo Le, (9) lo = 0, (8.13 ) 


(8.13) RE- TREA, AT ERR, WOAH aE 
BY FAME OKAR, E8679 4) FAA Se BY 5 AR ARE Fo 1B BY AIC 
多。 
利用 共 元 梯 度 方法 求解 线性 方程 组 AX 一 0 的 解 方法 : 
构造 目标 函数 7(z) 二 记 2”Az 一 bz， 则 是 目标 函数 的 最 小 值 。. 


Step1: 给 定 初试 迭代 点 2 中 ， 令 k=1. 
Step2: 计 算 梯度 gs =VF(2™) =Are™—b, Fllg.l| =0 则 停止 计算 ， 并 令 x* =r, BU 
下 一 步 . 


Step3 : 构造 搜索 方向 ， 首 先 计算 步 长 B_1 = 
构造 搜索 方向 为 : de=- ge + Bride 
step4 计算 搜索 步 长 六 一 - aS oe, 
Step5 : 若 上 二 n， 则 停止 计算 。 得 到 z* =r, HMSk=k+1, HA MStep2. 
图 8.6 SCHAAR TET SAA 

在 图 86 中 的 线性 方程 组 中 ， 
b= Vo Lon (O)lo=0u, A= Eon [Vlogo], IREE. PH IRE, 
我 们 能 计算 得 到 搜索 方向 d o 

(2) 第 二 步 ， 有 了 搜索 方向 4 ， 我 们 需要 确定 在 该 搜索 方向 上 的 
更 新 步 长 。 

将 第 一 步 求 得 的 搜索 方向 d ” 乘 以 步 长 ， 代 入 约束 方程 得 到 


(d“~)* Ag, 


U Age: Hk=1,6,-1.=0. « 


更 新 数据 点 ZL+D 一 g” + Ad” ‘i 


jx Zee) PAT) = ZOTAT 


从 而 得 到 步 长 8 = a + 


将 6 代入 目标 函数 Lon (0) — X| Dia Oaa,0) SE] ， 其 中 
X| Dia (Oaa) SE] R BR 当 Dalab) E 时 
%| Dy. (Osa) <6] =0 , YY Dy, Bara,8) >6 时 X [Dac Gaus) 
<6] 为 无 穷 大 。 
如 果 目 标 函 数值 变 大 ， 则 收缩 步 长 _ ， 直 到 目标 函数 得 到 改善 。 
最 后 更 新 参数 为 Gow = Boa + Bd o 


8.2 TRPO 中 的 数学 知识 


8.2.1 信息 论 


8.1 节 我 们 大 量 使 用 了 KL 散 度 的 运动 ， 那 么 KL 散 度 是 什么 ? 

KL 散 度 是 信息 论 中 的 概念 。 所 以 ， 在 回答 KL 散 度 之 前 ， 我 们 先 
了 解 下 信息 论 的 一 些 基 本 概念 。 

信息 论 是 指 运 用 概率 论 和 数理 统计 的 方法 研究 信息 、 信 息 焕 、 

信和 系统 等 问题 的 应 用 数学 学 科 ， 由 香农 所 出。 香农 1948 年 10 月 在 5 
尔 系统 技术 学 报 》 上 发 表 的 论文 A Mathematical Theory of 
Communication 揭 开 了 信息 论 研 究 的 序幕 。 在 这 篇 奠基 性 的 论文 中 ， 香 
R26 TS SIAR: 


H(X) =- > | pilogp, 
对 于 连续 卖 系统 3， FS RIE MA 
H(z) = BE,p [I (x)] = Eb,p [logP (x) | 
那么 ， 香 农 烂 的 含义 是 什么 ? 


EKAIA DNIH, ERARA, FERS 
大 。 而 随机 事件 的 信息 量 与 随机 变量 的 确定 性 有 关 ， 事 件 的 不 确定 性 
越 大 包含 的 信息 量 也 越 大 。 就 像 我 们 要 弄 清 楚 一 件 不 确定 的 事情 时 ， 
需要 了 解 大 量 的 信息 ; 而 对 于 确定 的 事情 ， 我 们 几乎 不 需要 了 解 任何 
其 他 的 信息 。 比 如 太阳 从 东边 升 起 是 一 件 很 确定 的 事件 ， 没 什么 信息 
量 ; 如 果 太 阳 今 天 没有 从 东方 升 起 ， 这 件 事情 就 包含 很 多 可 能 性 
或 是 阴 天 ， 或 是 下 雨 ， 或 是 其 他 原因 ..………. 信息 量 就 很 大 。 

MB RBI IEM, FOES SSRN RA, AMR 
的 结论 。 以 二 值 分 布 为 例 ， 假 设 随机 变量 只 取 0 或 者 1， 设 取 1 的 概率 
为 ， 则 取 0 的 概率 为 1-， 由 粒 的 定义 式 我 们 得 到 

H =- plog(p) — (1— p)log(1— p) 


E8. FATRA eas P 分 布 而 变化 的 情形 。 当 p=0.5 时 ， 取 1 
和 取 0 的 概率 都 是 0.5， 所 以 取 哪 个 数 是 最 不 确定 的 ; MH 
p=0 或 者 p=1 时 ， 则 表示 确定 性 地 取 0 或 者 1， 为 确定 性 事件 ， 其 所 对 


WANA, Ca). KAMINS SHR EL, HARK 
ARB TE ME BY SB FG Be A BY Kilo 


+ 
0.1 2 3 


P 
图 8.7 — (EM REISS 2) Fh BY SE 1, 


ALMA AKA ESN. TARER, RVG AK 
码 方 案 不 一 定 完美 时 ， 平均 编码 的 长 度 。 不 完美 的 编码 用 Q 表 示 ， 则 平 
均 编码 长 度 为 


H(P,Q) =- Eno Q(2) =- J POED as 


BOM MES FSR EA NAE FS) PAAR. IRAE RAFAT 
布 是 P\z) ， 而 模型 概率 分 布 为 Q (x) ， 只 有 模型 分 布 与 真实 的 样本 分 
PHS, SOMMER). PEASE MS REAR REX. 


FSR AS FARA Be BP TE Th ZEEE, Bee 
个 概率 分 布 之 间 相似 程度 的 量 为 KL 散 度 ， 定义 如 下 。 


(7) 
Q(z) 
KL 散 度 的 一 个 重要 性 质 是 非 负 性 ， 而 且 ， 当 且 仪 当 两 个 概率 分 布 
处 处 相等 时 ， 取 到 零 。 因 此 ，KL 散 度 常用 来 衡量 两 个 分 布 之 间 的 距 
离 。 但 KL 散 度 与 一 般 距 离 不 同 ,， 它 一 般 不 具有 对 称 性 ， 即 
Dr (P||Q) # Dr: (Q\|P) 。 


KL 散 度 与 交叉 燃 具有 密切 的 关系 ， 从 定义 式 我 们 推 得 两 者 的 关系 
如 下 。 


Dx (P||Q) -已 ng 59 = [ Poort sae | PeogQ a) (8.15) 


H(P,Q) =- | P(a)logQ(a)da 


=- | PosQ tet | POPO- | PCe)logP a) (8.16) 


= Dy (P,Q) + H(P) 


在 机 器 学 习 中 ， 样 本 的 真实 分 布局 (z) 保持 不 变 ， 因 此 最 优化 交叉 
ij H (P,Q) 等 价 于 最 优化 KL 散 度 。 


KL 散 度 频繁 地 出 现在 强化 学 习 的 求解 过 程 中 ， 现 在 我 们 对 其 非 负 
性 进行 证 明 ， 即 对 任意 的 两 个 分 布 P 和 Q@ 都 有 


> Pilogg; — >_ Pilogp: = > nlog( £) =- Dk, (PIIQ) <0 
证 明 
根据 函数 的 性 质 In (x) 三 x 一 1 当 且 仅 当 x 二 1 时 ， 等 号 成 立 。 
所 以 


Se < ec = Gan = > = Sy =0 
i=l i=1 i=1 i=1 i=1 


8.2.2 优化 方法 


在 8.1 节 中 ，TRPO 最 终 转化 为 优化 求解 问题 。 优 化 求解 是 机 器 学 习 
包括 监督 学 习 、 非 监督 学 习 和 强化 学 习 的 重要 组 成 部 分 。 有 了 数据 以 
后 ， 强 化 学 习 问题 就 变 成 了 优化 问题 。 因 此 ， 了 解 和 熟练 掌握 常用 的 
优化 算法 对 于 理解 和 运用 强化 学 习 算法 至 关 重 要 。 

从 宏观 的 角度 分 类 ， 优 化 算法 包括 线性 规划 算法 、 非 线性 规划 算 
法 和 现代 最 优化 算法 。 其 中 ， 线 性 规划 算法 最 基本 的 算法 是 单纯 形 
法 ; 非 线性 规划 算法 则 包括 无 约束 问题 的 最 优化 方法 ， 如 最 速 下 降 
法 、 牛 顿 法 、 共 斩 梯 度 法 、 拟 牛顿 法 ， 以 及 约束 问题 的 最 优化 方法 ， 
如 近似 规划 法 、 可 行 方向 法 、 罚 函数 的 内 点 和 外 点 法 、 乘 子 法、 二 次 
规划 法 等 ; 现代 最 优化 算法 包括 遗传 算法 、 模 拟 退火 算法 和 粒子 群 算 
法 等 。 

在 机 器 学 习 的 优化 算法 中 ， 非 线性 规划 算法 应 用 最 普遍 ， 因 此 本 
节 主 要 介绍 非 线性 规划 算法 中 的 无 约束 问题 和 约束 问题 的 优化 方法 。 
在 无 约束 问题 中 ， 我 们 介绍 最 速 下 降 法 、 牛 顿 法 、 共 斩 梯 度 法 和 拟 牛 
顿 法 。 在 约束 问题 中 ， 我 们 重点 介绍 最 优 性 条 件 。 

1. 无 约束 问题 的 优化 方法 


我 们 首先 定义 无 约束 问题 的 数学 形式 。 无 约束 优化 问题 ， 就 是 求 
使 得 目标 遂 数 最 小 时 的 自 变 量 值 ， 可 数学 形式 化 为 


min f(x) (8.17) 
解决 无 约束 问题 的 最 基本 方法 是 最 速 下 降 法 。 
(1) 最 速 下 隆 法 

关于 最 速 下 降 法 ， 我 们 需要 弄 懂 两 个 问题 ， 一 是 什么 是 最 速 下 降 
法 ， 二 是 为 什么 最 速 下 降 法 能 够 求解 最 优 问 题 。 

首先 ， 回 答 第 一 个 问题 ， 什 么 是 最 速 下 降 法 ? 

jg f (1) eT 附近 连续 可 微 ， 则 f(z) 在 ZX 处 下 降 最 快 的 方向 dx 
为 负 梯 度 的 方向 ， 即 


了 一 Van (8.18) 
最 速 下 降 法 在 你 处 的 下 一 个 迭代 值 为 
Tr41 = T; + ad, (8.19 ) 


其 中 为 更 新 步 长 ， 可 通过 精确 线 搜索 方法 得 到 。 方 程 (8.18) 
和 (8.19) 共同 构成 了 最 速 下 降 法 。 
我 们 再 看 第 二 个 问题 ， 为 什么 最 速 下 降 法 可 以 用 来 求解 最 优 问 


题 ? 


我 们 将 优化 函数 (7) 在 zi+1 处 ， 用 泰勒 公式 展开 得 


f (a, + ad,) = f (£4) + aged, +o(a), a>0 


f (a, + adı) — f (24) 十 o(a) =-a (gk 9) <0 


因此 若 Q 每 次 取 值 合适 ， 每 次 迭代 都 能 保证 优化 函数 S a) 单调 递 


最 速 下 降 法 的 伪 代 码 如 下 。 


Step 0: 选取 初始 点 zo ER” , 容许 误差 0 = E XK 1 , Sk: = 1 ; 

Step 1: HEL = Vf), Ell Se ， 退 出 ， 输 出 T 作为 近似 
最 优 解 ; 

Step 2: 选取 搜索 方向 dx 二 一 gx ; 

Step 3: 由 线 搜索 技术 确定 步 长 因子 ; 

Step 4: S Tr+1: = Ly +a,d,, ki =k+1 ’ 转 Step1。 

(2) 牛顿 法 

在 最 速 下 降 法 中 ， 只 用 了 优化 函数 的 一 阶 导数 信息 ， 导 致 算法 收 
敛 速度 慢 ， 效 率 低 。 为 了 增 大 收 剑 速率， 牛顿 法 中 运用 了 优化 函数 的 
二 阶 导数 信息 。 设 优化 函数 (ce) 的 二 阶 导数 为 G(z) =V’ f(x), B 
和 矩 阵 称 为 Hessian 阵 。 优 化 函数 在 迭代 点 2x 处 ， 利 用 泰勒 展开 其 前 三 
项 ， 得 到 


f(a) = f(a) + of e-n) + 5 E-r) GE a) + 0(A2”) 


其 中 四 三 Vf(zx) 。 求 二 次 函数 的 最 小 点 ， 即 对 7 求 导 取 零 ， 得 


gr + G, (x — z) =0 (8.20 ) 
AG, 非 奇 异 ， 则 解 (8.20) 式 得 到 牛顿 法 的 迭代 公式 为 
Tr+1 = Le— GE gh (8.21) 


理论 上 ,在 (8.21) RP, FRARI REH Hessians hy i 4E 
BEG, ， 逆 矩阵 的 求解 跟 变量 维 数 的 平方 成 正 。 因 此 ， 在 实际 的 算法 


中 并 不 这 样 做 ， 而 是 令 di 二 Gx 9: ， 即 通过 解 方程 


Grdr = gr (8.22 ) 


EIA ENA: 来 避免 求 逆 。 线 性 方程 (8.22) 式 的 求解 方法 很 
多 ，3.2.1 节 中 给 出 了 线性 方程 组 的 求解 方法 。 这 样 迭 代 式 子 (8.21) 变 
为 


Lei Ly + d; ( 8.23 ) 
(8.22) 式 和 (8.23) 式 给 出 了 牛顿 法 求解 最 优 函 数 的 方程 式 。 
牛顿 法 的 伪 代 码 如 下 。 
Step 0: 给 定 误 差 值 0 三 1 ， 初 始点 ZoE 民 ”， 令 ， 


Step 1: 计算 梯度 gi 二 Vf(z:) ， 若 lgrl| Se, RH, HT 作为 
近似 最 优 解 
Step 2: HG, =V’ f(a.) ， 并 求解 线性 方程 组 (8.22) 得 到 解 dx 


Step 3: S241 = Tr tak, ki =k+1, ， 转 Step 1。 


和 最 速 下 降 法 相 比 ， 牛 顿 法 利用 了 优化 函数 的 局 部 二 阶 导数 ， 
此 具有 二 阶 收敛 性 ， 比 最 速 下 降 法 收敛 速度 快 。 

在 使 用 牛顿 法 的 时 候 ， 我 们 已 经 假设 了 初始 点 足够 接近 极 小 点 ， 
否则 可 能 会 导致 算法 不 收敛 。 然 而 ， 在 实际 算法 中 我 们 并 不 知道 极 小 
点 在 什么 地 方 ， 因 此 一 般 不 会 直接 使 用 牛顿 方法 求解 ， 而 是 使 用 基于 
牛顿 方法 的 改进 方法 ， 如 阻尼 牛顿 法 。 阻 尼 牛 顿 法 是 指 求 得 (8.22) 式 
的 解 后 ， 再 使 用 线性 搜索 的 方法 ， 得 到 一 个 适当 的 更 新 步 长 ， 保 证 更 
新 后 的 遂 数 值 非 增 。 

牛顿 法 中 假设 了 优化 函数 的 Hessian 阵 G = V’ f (x) 在 每 个 迭代 点 
Tr 处 是 正定 的 ， 这 个 假设 在 实际 中 并 不 能 完全 成 立 ， 为 了 克服 这 一 缺 
点 ， 需 要 修正 牛顿 法 。 修 正 的 方法 有 很 多 ， 我 们 介绍 两 种 方法 。 

e 第 一 种 牛顿 法 修正 方法 : 牛顿 -最 速 下 降 混合 算法 

该 修正 方法 的 基本 想法 是 ， 当 Hessian 阵 正定 的 时 候 ， 采 用 牛顿 法 
得 到 的 搜索 方向 搜索 ， 当 Hessian 阵 非 正 定时 ， 采 用 负 梯 度 的 方向 作为 
搜索 方向 。 该 算法 的 伪 代 码 如 下 。 


Step 0: 给 定 初始 点 ZoE 民 ”， 终止 误 差 0 三 e <1, Sk: =0; 


Step 1: 计算 迭代 点 处 的 梯度 % = Vf(z:) ， 若 lgrl| <e 则 退出 ， 
输出 Xx 作为 近似 最 优 解 ; 

Step 2: HG, =V’ f(a.) ， 解 方程 组 (8.22) ， 若 (8.22) 有 解 
d; ， 即 Hessian 阵 为 正定 阵 ， 并 且 解 满足 9 d: <0 ， 转 Step 3; BM, 
利用 最 速 下 降 法 ， 即 搜索 方向 d.=— 9: ， 转 Step 3; 


Step 3: 由 线 搜索 技术 确定 步 长 因子 ，; 
Step 4: 令 Zhp+1 三 Ti 十 Qidr, :二 上 十 1 ， 转 Step 1. 


e 第 二 种 牛顿 修正 方法 : 加 入 阻尼 因子 

牛顿 修正 方法 解决 的 是 优化 函数 的 Hessian 阵 非 正定 的 情况 ， 第 一 
种 方法 是 在 Hessian 阵 非 正 定时 利用 最 速 下 降 法 ; 第 二 种 方法 的 基本 思 
想 是 将 非 正定 的 Hessian 阵 通过 加 入 阻尼 因子 变 成 正定 的 Hessian 阵 ， 即 
选取 参数 必 使 得 矩阵 4x 二 Ga) tel 正定 。 其 伪 代 码 与 第 一 种 方 
法 类 似 ， 只 是 在 Step 2 有 所 不 同 。 

共 斩 梯 度 的 方法 我 们 已 在 8.1 节 介绍 ， 此 处 不 再 费 述 。 下 面 我 们 重 
点 介绍 拟 牛 顿 法 。 

(3) 拟 牛 顿 法 

拟 牛 顿 法 是 为 了 解决 牛顿 法 中 的 一 些 潜 在 问题 ， 也 就 是 Hessian 阵 
所 带 来 的 问题 而 提出 的 。 

Hessian 阵 会 带 来 哪些 问题 呢 ? 

第 一 ，Hessian 阵 不 一 定 正 定 。 尽 管 修正 的 牛顿 法 可 以 在 一 定 程度 
上 避免 这 个 问题 ， 但 修正 系数 人 ur 的 选取 是 很 有 挑战 性 的 事情 ， 因 为 过 
大 或 者 过 小 都 会 影响 收敛 速度 。 

第 二 ，Hessian 阵 的 计算 量 大 。 在 牛顿 法 中 ， 每 次 迭代 都 需要 计算 
迭代 点 处 的 Hessian 阵 。 优 化 函数 的 Hessian 阵 是 二 阶 导 数 和 矩阵 ， 对 于 大 
规模 优化 问题 ， 二 阶 导数 的 求解 需要 惊人 的 计算 量 。 


牛顿 法 存在 的 这 些 缺 点 使 学 者 们 提出 了 各 种 解决 方法 。 拟 牛顿 法 
的 基本 思想 是 并 不 直接 计算 优化 函数 的 二 阶 Hessian 和 矩阵 ， 而 是 通过 逼 
近 的 方法 寻找 Hessian 阵 Gx AEAEE BEB, 。 

近似 得 到 B 的 方法 有 很 多 ， 下 面 我 们 介绍 一 种 近似 逼近 和 矩 阵 B, 
的 方法 。 

LAMAR" >R, EFRDCR LO REBAR F 
用 泰勒 展开 优化 函数 上 得 到 二 次 近似 模型 如 下 。 
f(z) © f (Ges) og) + 5 (a = beia) Gra lE — Traa) (8.24 ) 

该 近似 式 对 变量 x 求 导 可 得 


F(E) © geri t+ Gr+1(8— Bet1) (8.25 ) 
(8.25) 式 在 你 +1 附近 成 立 ， 当 然 在 上 次 的 迭代 点 你 处 也 成 立 。 
(8.25) 式 在 迭代 点 ZX 处 为 
F (Er) grrit Gers (Gn — PEt) 
我 们 令 s 二 r41 — Tr, Yr 二 gr+1 一 了 (Zk) ， 则 (8.25) HABA 


Gk+1Sk & Yk (8.26 ) 
下 面 根据 (8.26) 式 构建 G+1 ADB B, Bri 应 该 满足 
如 下 方程 : 


.2 
By 418% = Yk (8.27) 


方程 (8.27) 称 为 拟 牛顿 方程 或 拟 牛 顿 条 件 。 若 令 豆 + 一 Bi+l ， 

则 得 到 拟 牛 顿 方程 的 另外 一 个 形式 : 
Fy 1 Yn = Sk (8.28 ) 
在 进一步 推导 出 Bi+1 的 具体 形式 之 前 ， 我 们 先 看 一 看 目前 我 们 知 
道 哪 些 信 息 。 如 (827) AA (828) 式 所 示 ， 我 们 知道 


Sk = Le+1—~ Ley Yk S Jeti — f? (ax) ， & Aly, 由 相 邻 迭代 点 坐标 及 其 
一 阶 导数 计算 得 到 。 我 们 的 目标 就 是 用 一 阶 导数 和 坐标 信息 得 到 和 矩 阵 
Bi+i 或 Hi+1。 用 一 阶 导 数 估计 二 阶 导 数 ， 从 直观 上 来 想 肯 定 需 要 做 
差分 ， 在 实现 上 来 说 应 该 涉及 迭代 。 拟 牛顿 的 方法 正 是 从 这 点 出 发 ， 
通过 上 一 步 的 Bi 迭代 得 到 Br 的 。 令 : 

Bi+1= B; + Er, Api = H; + Dy (8.29 ) 


其 中 Bx AD, AAR FEE RIFE RS. FAL FRE RA 2 FES SHBRA 1 
或 2 的 矩阵 。 通 常 把 (8.27) 式 或 (8.28) 式 和 (8.29) 式 所 确立 的 方法 
称 为 拟 牛 顿 法 。 

e 秩 1 矩阵 

下 面 我 们 先 介绍 用 秩 1 和 矩阵 得 到 及 :+1 的 方法 。 


首先 秩 1 和 矩阵 可 表示 为 天 三 awk 人 居 其 中 a € R, ur ER"”。 


B,41= B, + au,uz (8.30 ) 
将 (8.30) 式 代入 (8.27) 式 得 到 

(Bi au, ug ) Sk = Ye (8.31) 
为 了 得 到 ， 我 们 将 (8.31) 式 展开 ， 移 项 得 到 

A (Uk Sk) Ux = Yr — Br sy ( 8.32 ) 


HA us 为 实数 ， 因 此 由 (8.32) R, 我们 知道 平行 于 
yr 一 Bis. ， 即 存在 常数 6 ， 使 得 必 三 D( 办 一 Base) ， 将 该 式 代入 Ex 
的 表达 式 得 到 

E, = ap? (yx — Br sx) (Yr — Br sr)” ( 8.33 ) 

FA (8.32) 得 

aB? [Cyr — Br Sr)” Sr] (Yr — Bese) = (yr — Buse) 


E (yz — Bis.) 75, #0 , By BY a8" [Cyr — Brst)” sa] =1, AILS 


1 
a3? = 一 一 
B ny (8.34) 


将 (8.34) HA (8.33) 得 到 


(Y, = B, Sk) (Y — B, Sx) 


oa (yr — By Sx) sx ee) 
代入 (8.30) 式 可 以 得 到 Cx+i 的 逼近 和 矩阵 为 
万 ，; 一 万 十 (yx — Bi Sx) (yx — Bi Sx) (836) 


(Yr — B; S) Ts; 

我 们 可 以 利用 相似 的 方法 用 (8.28) 式 推 导出 Hi, BF 

(8.28) 式 和 (8.27) 式 形 式 上 是 相似 的 ， 因 此 推导 Hr+1 的 公式 只 需 

要 将 (8.36) 式 中 的 办 和 sx 的 位 置 调换 ， Bi RRA, 即 可 。 也 就 是 
(si — Hi yx) (sx — Hry) 

(sx _ Hi yx) Wk 

有 了 Hessian 和 矩阵 的 远近 式 ， 我 们 就 可 以 利用 牛顿 方法 求解 最 优 问 
题 了 。 拟 牛顿 方法 的 伪 代 码 如 下 。 

Step 0: 给 定 初 始点 zo € 及 ”， 终 止 误 差 0 万 1 ， 初 始 化 对 称 正 
EH (通常 取 为 单位 阵 ) 。 令 k: =0 ; 

Step1: Allg || Se, URH. Hh T: 作为 近似 极 小 点 ; 

Step 2: 计算 搜索 方向 dx 二 一 Hig ; 

Step 3: 用 线 搜索 技术 求 步 长 ; 

Step 4: S241 = Tr tod, , A (8.37) W Ais: 5 


Hi;,1= H+ (837) 


Step5: Sk: =k+1, ， 转 Step 1. 

目前 最 流行 的 拟 牛 顿 矫正 法 是 Broyden Fletcher, Goldfard 和 
Shanno 于 1970 年 各 自 独立 提出 的 拟 牛 顿 法 ， 被 称 为 BFGS 算 法 。 该 算法 
的 基本 思想 与 我 们 上 面 介 绍 的 拟 牛 顿 方法 基本 类 似 ， 不 同 之 处 在 于 
BFGS S04 74387 Hessian Fb BE BY FA AVIS EEE, HFE. 


e 秩 2 和 矩阵 
一 般 秩 2 和 矩 阵 可 由 两 个 秩 1 和 矩 阵 相 加 得 到 ， 我 们 将 秩 2 和 矩阵 表示 为 
E,=au,up + Bor ve ( 8.38 ) 


同样 ， 将 (8.38) 式 代 入 (8.27) 得 到 
(B, + auruk + BUUK )Sk = Yr 
展开 后 得 到 
A (Uk Sk) Ux + B CUR Sr) Ur = Yr — Bu Sx (8.39 ) 
WF (8.39) st, wi 和 wi 的 选取 并 不 唯一 ， 其 中 一 种 选择 为 令 
Uy 和 wi SPB FTF Bi Se 和 Ys o BAIS ur = Vise, V= 0yr, HP 
19 为 待定 参数 。 将 它们 代入 (8.38) 得 到 
E, = ary” By 8.8% By + BO’ yn ye (8.40 ) 
fgur = YBu Sey Vr = Oye EX (8.39) 式 得 到 


al (Br 8x) Sk] (YBrs) + BL Oyun)“ sk] Oye) = yr — Bes: 
移 项 ， 合 并 同类 项 得 
[ary? (sf Bust) +1] By, + [ G0? (yes) —1]y,=0 (8.41) 
F Ye Sr >0 Aye Se <O MWB: =B, ， 因 此 BFGS 的 矫正 方式 
为 


ary? (st Bs) +1=0, BO? (ys) —1=0 


» TI 
1 1 
2—— 2 — 
ay ENA CO Wa (8.42 ) 


将 (8.42) IÈIRA (8.40) 式 得 到 


Bis: si B, YE YE 
Bens = B; ae + ie (8.43 ) 
在 使 用 BFGS 时 ， 若 使 用 (8.43) 式 ， 则 假设 了 
B, Aye Sk < 0 


( 8.44 ) 


B= = By ssx By 4 Ve Hyls, >0 
k ok 


T T 
Sk By Sk Yk Sk 


B; 
BFGS 算 法 的 伪 代 码 如 下 。 
Step 0: EBA E (0,1),c€ (0.0.5) ， 初 始点 zoE 及 ”， 终 止 
误差 0 过 = 匀 1 ， 初 始 对 称 正定 阵 (通常 取 为 单位 阵 ) , Sk: =0; 
Step1: 计算 梯度 % = Vfl) ， 若 gx Se ， 和 迭代 结束 ， 输 出 你 
作为 近似 极 小 点 ; 
Step 2: 解 下 列 线性 方程 组 ， 得 到 : 
Bidi = — 9; 
Step 3: 设 mx 是 满足 下 列 不 等 式 的 最 小 非 负 整数 : 
f(a, +6" d) Sf (ax) +06” gf dy 
这 时 利用 线 搜 技 术 得 到 搜索 步 长 为 Q 二 9 ， 新 的 迭代 点 为 
Lr+1 = Ty F az di; 5 
Step 4: 由 矫正 公式 (8.44) 1488) F— H AyHessianis VT FERS Bi 41 5 
Step5: Sk: =k+1, step 1. 


除了 BFGS 算 法 ， 还 有 很 多 其 他 拟 牛 顿 的 方法 ， 其 中 比较 知名 的 是 
DFP 方 法 ， 该 方法 是 第 一 个 拟 牛 顿 矫正 法 ， 它 的 推导 过 程 与 BFGS 类 
似 ， 这 里 不 再 介绍 。 

至 此 ， 我 们 已 经 介绍 完 关 于 无 约束 优化 问题 的 基本 方法 。 下 面 ， 
我 们 介绍 带 有 约束 的 最 优 性 条 件 。 


1. 带 有 约束 的 最 优 性 条 件 
带 有 约束 的 优化 问题 可 用 以 下 方法 形式 化 。 
min f(z) 
st. he) =0, 1=1,2,+,1 (8.45 ) 


g(x) 20, i=1,2,.…,m 


(8.45) 式 是 一 般 约 束 优 化 问题 的 形式 化 。 在 该 式 中 ， 等 式 约束 的 
个 数 为 个， 不 等 式 约 束 为 m 个 ， 记 指标 集 
B= Ae = (Lewy 3 By 行 tay 为 
D= ‘reER"|h(z) =0,1€ E,g:(£)Z0,iEI}o 


在 解决 (8.45) 的 时 候 ， 需 要 首先 构造 拉 格 朗 日 函数 ， 即 


Lz Nh) = f(a) 一 Up) — X Aga) 

下 面 我 们 给 出 一 般 约 束 问题 的 KT 一 阶 必要 条 件 : 设 z 是 一 般 约束 
问题 的 局 部 极 小 点 ， 且 满足 (8.45) 式 ， 若 向 量 组 Vhi(z ), Vgi(z ) 
线性 无 关 ， 则 存在 向 量 (1", 和 )eRixR”， 其 中 
p= (s) 入 一 OissAn)” 5 使 得 


VEC") — $ [ui Vh (a) — X N Vg: (°) =0 


h;(z*) =0,i€ E 
g;(z") = 0,A7 >0,A 9;(x*) =0, iel 


( 8.46 ) 


在 8.1 节 中 ，TRPO 算 法 中 便利 用 了 最 优 性 条 件 。 解 决 带 约束 的 优化 
问题 有 很 多 方法 ， 如 近似 规划 算法 、 可 行 方 向 法 、 罚 函数 法 、 乘 子 法 
以 及 专门 的 二 次 规划 方法 。 这 些 方法 在 本 章 并 未 得 到 应 用 ， 因 此 暂 不 
介绍 。 在 第 10 章 中 用 到 了 ADMM 方 法 ， 它 属于 带 约束 的 最 优化 问题 ， 
因此 在 10.2 节 中 ， 我 们 会 继续 讲解 一 些 带 约束 的 优化 方法 。 


8.3 习题 
1.TRPO 算 法 成 功 的 关键 是 什么 ? 
2.TRPO 用 到 的 四 个 技巧 是 什么 ? 


3. 基 于 gym 手 动 编写 TRPO 的 代码 。 
4. 利 用 TRPO 的 方法 让 游 动机 器 人 和 跳跃 机 器 人 学 会 运动 。 


9 基于 确定 性 策略 搜索 的 强化 学 习 方 法 


9.1 理论 基础 


要 想 完全 理解 本 章 的 内 容 需 要 熟练 掌握 前 8 章 的 要 点 ， 并 且 假 设 读 
者 对 DQN 网 络 很 熟悉 。 

我 们 先 从 图 9.1 策 略 搜索 方法 的 分 类 开始 。 从 图 中 我 们 可 以 看 到 ， 
无 模型 的 策略 搜索 方法 可 以 分 为 随机 策略 搜索 方法 和 确定 性 策略 搜索 
方法 。 其 中 随机 策略 搜索 方法 又 发 展 出 了 很 多 算法 。 可 以 说 ，2014 年 
以 前 ， 学 者 们 都 在 发 展 随 机 策略 搜索 的 方法 ， 因 为 大 家 都 认为 确定 性 
策略 梯度 是 不 存在 的 。 直 到 2014 年 ， 强 化 学 习 算 法 大 神 Silver 在 论文 
Deterministic Policy Gradient Algorithms 中 提出 了 确定 性 策略 理论 ， 策 略 
搜索 方法 中 才 出 现 确定 性 策略 的 方法 。2015 年 ，DeepMind 的 大 神 们 又 
将 该 理论 与 DQN 的 成 功 经 验 结合 ， 在 论文 Continuous Control with 
Deep Reinforcement Learning 中 提出 了 DDPG 算 法 。 本 章 以 这 两 篇 论文 为 


素材 ， 向 大 家 介绍 确定 性 策略 。 
策略 搜索 方法 


无 模型 的 策略 搜索 方法 


基于 模型 的 策略 搜索 方法 


单调 步 长 ， 
方差 约 简 


引导 策略 搜索 (GPS): 
传统 控制 器 + 监督 学 习 


图 9.1 策略 搜索 方法 分 类 
首先 ， 我 们 先 了 解 一 下 随机 策略 和 确定 性 策略 。 
随机 策略 的 公式 为 


Te (a|s) = Plals; 6] (9.1) 
其 含义 是 ， 在 状态 为 s 时 ， 动 作 符合 参数 为 和 的 概率 分 布 。 比 如 常 
用 的 高 斯 策略 : 


Te (a|s) = 552 


SE [- (a— fo 2) 


当 利 用 该 策略 采样 时 ， 在 状态 s 处 ， 采 取 的 动作 服从 均值 为 fo (s) 
、 方 差 为 o? 的 正 态 分 布 。 因 此 ， 我 们 可 以 总 结 说 ， 采 用 随机 策略 时 ， 
即使 在 相同 的 状态 ， 每 次 所 采取 的 动作 也 很 可 能 不 一 样 。 当 然 ， 当 采 
用 高 斯 策略 的 时 候 ， 相 同 的 策略 在 同一 个 状态 s 处 ， 采 样 的 动作 总 体 上 
看 就 算是 有 不 同 ， 差 别 也 不 是 很 大 。 

我 们 再 来 看 看 确定 性 策略 的 公式 ， 如 下 。 


a = uo (s) (9.2) 


和 随机 策略 不 同 ， 相 同 的 策略 (BNO 相同 时 ) ， 在 状态 为 se 时 ， 动 
作 是 唯一 确定 的 。 

我 们 比较 一 下 随机 策略 和 确定 性 策略 的 优 缺 点 。 

确定 性 策略 的 优点 在 于 需要 采样 的 数据 少 ， 算 法 效率 高 。 

首先 ， 我 们 看 随机 策略 的 梯度 计算 公式 : 


Vod (mo) = | aren [Va logis (a|s)Q" (s,a) ] ( 9.3 ) 


(9.3) 式 表 明 ， 策 略 梯度 公式 是 关于 状态 和 动作 的 期 望 ， 在 求 期 
望 时 ， 需 要 对 状态 分 布 和 动作 分 布 求 积 分 ， 这 融 要 求 在 状态 空间 和 动 
作 空 间 采 集 大 量 的 样本 ， 这 样 求 均值 才能 近似 期 望 。 

然而 ， 确 定性 策略 的 动作 是 确定 的 ， 所 以 如 果 存 在 确定 性 策略 榜 
度 ， 策 略 梯度 的 求解 不 需要 在 动作 空间 采样 积分 。 因 此 ， 相 比 于 随机 
策略 方法 ， 确 定性 策略 需要 的 样本 数据 更 小 。 尤 其 是 对 那些 动作 空间 
很 大 的 智能 体 (比如 多 关节 机 器 人 ) ， 由 于 动作 空间 维 数 很 大 ， 如 果 
用 随机 策略 ， 需 要 在 这 些 动作 空间 中 大 量 采 样 。 


通常 来 说 ， 确 定性 策略 方法 的 效率 比 随机 策略 的 效率 高 十 倍 ， 这 
也 是 确定 性 策略 方法 最 主要 的 优点 。 

相 比 于 确定 性 策略 ， 随 机 策略 也 有 优点 : 随机 策略 可 以 将 探索 和 
改善 集成 到 一 个 策略 中 。 


强化 学 习 领 域 中 的 各 路 大 神 在 过 去 十 几 年 中 热衷 于 发 展 随机 策略 
搜索 方法 是 有 原因 的 。 最 重要 的 原因 是 随机 策略 本 身 自沉 探索 。 它 可 
以 通过 探索 产生 各 种 各 样 的 数据 ， 有 好 的 数据 ， 也 有 坏 的 数据 一 一 强 
化 学 习 算法 可 以 通过 在 这 些 好 数据 中 学 习 来 改进 当前 的 策略 ， 如 图 9.2 
所 示 。 正 是 因为 运用 了 随机 策略 才 可 以 产生 这 三 条 轨迹 。 这 三 条 轨迹 
中 有 好 的 轨迹 ， 通 过 学 习 这 些 好 的 轨迹 ， 可 以 快速 改善 策略 。 此 外 ， 
随机 策略 梯度 理论 相对 比较 成 熟 ， 计 算 过 程 简单 。 


自 探 索 策 略 


高 回报 区 域 


图 9.2 随机 策略 学 习 过 程 


我 们 再 回 到 确定 性 策略 算法 。 如 公式 (9.2) 所 示 ， 给 定 状 态 s 和 
策略 参数 0 时 ， 动 作 是 固定 的 。 也 就 是 说 ， 当 初试 状态 已 知 时 ， 用 确 
定性 策略 所 产生 的 轨迹 永远 都 是 固定 的 ， 智 能 体 无 法 探索 其 他 轨迹 或 
访问 其 他 状态 ， 从 这 个 层面 来 说 ， 智 能 体 无 法 学 习 。 我 们 知道 ， 强 化 
学 习 算法 是 通过 智能 体 与 环境 交互 来 学 习 的 。 这 里 的 交互 是 指 探索 性 
交互 ， 即 智能 体会 尝试 很 多 动作 ， 然 后 在 这 些 动作 中 学 到 好 的 动作 。 

既然 确定 性 策略 无 法 探索 环境 ， 那 么 它 如 何 学 习 呢 ? 

答案 是 利用 异 策略 学 习 方法 (off-policy) 。 异 策略 是 指 行动 策略 
和 评估 策略 不 是 同一 个 策略 。 我 们 此 处 所 说 的 行动 策略 是 随机 策略 ， 


以 保证 充足 的 探索 ; 评估 策略 是 确定 性 策略 ， 即 公式 (8.2) 。 整 个 确 
定性 策略 的 学 习 框 架 采 用 AC (Actor-Critic Algorithm) 的 方法 。 

AC 算法 包括 两 个 同等 地 位 的 元 素 ， 一 个 元 素 是 Actor 即行 动 策 
略 ， 另 一 个 元 素 是 Critic 策 略 即 评估 ， 这 里 是 指 利 用 阔 数 通 近 方法 估计 
{BEEK 

我 们 先 看 看 随机 策略 AC 的 方法 。 

随机 策略 的 梯度 为 


Vod (To) = E., a-n, [Vologre (als) Q” (s, a) | 
如 图 9.3 所 示 ， 其 中 Actor 方法 用 来 调整 9 A; Critic HAEA 
RR Q"(s,a) ~Q"(s,0), ERU 为 待 逼近 的 参数 ， 可 用 TD 学 习 的 
方法 评估 值 冰 数 。 


a Critic 


O AM Q(s,a) 
S CC» EY O> Ra 
Actor — Ù ) ® 
图 9.3 AC 方 法 网 络 结构 
异 策略 随机 策略 梯度 为 
Vo Jy (To) = E,- a-p | ri as Vo log, (als)Q” (s, a) ( 9.4 ) 


采样 策略 为 。 


为 了 得 到 确定 性 策略 AC 的 方法 ,我 们 首先 给 出 确定 性 策略 梯度 如 
下 。 


Vod (uo) = E, p [Vo Lo (s) VQ" (s,4)|.=,4(s)] ( 9.5 ) 


(9.5) 式 即 为 确定 性 策略 梯度 。 和 随机 策略 梯度 (9.3) 式 相 比 ， 
少 了 对 动作 的 积分 ， 多 了 回报 函 效 对 动作 的 导数 。 
异 策 略 确 定性 策略 梯度 为 


Vo Js (po) = E,, [Vo Ho (s) Va Q” (s, 0)|。 ao (9.6) 


比较 (9.6) 和 (9.4) 我 们 发 现 ， 确 定性 策略 梯度 求解 时 少 了 重要 
性 权重 ， 这 是 因为 重要 性 采样 是 用 简单 的 概率 分 布 区 估计 复杂 的 概率 
分 布 ， 而 确定 性 策略 的 动作 为 确定 值 而 不 是 概率 人 分布， 此外， 确定 性 
策略 的 值 函数 评估 用 的 是 Qlearning 的 方法 ， 即 用 TD (0) 估计 动作 值 
函数 并 忽略 重要 性 权重 。 

有 了 (9.6) 式 ， 我 们 便 可 以 得 到 确定 性 策略 异 策略 AC 算 法 的 更 新 
过 程 了 ， 如 下 。 


ô =r; + yQ” ($241; Ho ($:41)) = (si, a1) 
Wit = Wi + A, tV Q” (5 ai) (9.7) 
0:41 = 0: Qo Vo Ho (s) V.Q” (ntlo 
(9.7) SUBS —17 #6 17 EF BSA AS Be 
参数 ， 第 三 行 是 利用 确定 性 策略 梯度 的 方法 更 新 策略 参数 。 

以 上 介绍 的 是 确定 性 策略 梯度 方法 ， 可 以 称 为 DPG 的 方法 。 有 了 
DPG， 我 们 再 讲 DDPG。 

DDPG 是 深度 确定 性 策略 ， 所 谓 深 度 是 指 利 用 深度 神经 网 络 人 近 
FARM Q” (s,a) 和 确定 性 策略 Jw (s) 。 

就 像 介 绍 DQN 时 所 说 的 ， 当 利用 深度 神经 网 络 进行 函数 逼近 时 ， 
强化 学 习 算 法 常常 不 稳定 。 原 因 在 于 在 训练 深度 神经 网 络 时 往往 假设 
输入 的 数据 是 独立 同 分 布 的 ， 然 而 强化 学 习 的 数据 是 顺序 采集 的 ， 数 
据 之 间 存 在 马尔 科 夫 性 ， 很 显然 这 些 数据 并 非 独 立 同 分 布 的 。 

为 了 打破 数据 之 间 的 相关 性 ，DQN 用 了 两 个 技巧 : 经 验 回 放 和 独 
立 的 目标 网 络 。DDPG 的 算法 便 是 将 这 两 条 技巧 用 到 了 DPG 算 法 中 。 
DDPG 的 经 验 回 放 和 DQN 完 全 相同 ， 不 再 重复 ， 我 们 此 处 只 是 重点 介 
绍 DQN 中 的 独立 目标 网 络 。 


DPG 的 更 新 过 程 如 (9.7) 式 所 示 ， 这 里 的 目标 值 是 (9.7) 式 中 第 
一 行 的 前 两 项 ， 即 


Te + YQ” (S141, ho ($141) ) (9.8) 


需要 修改 的 就 是 (9.8) 式 中 的 w 和 4 ， 先 将 w 和 0 单独 拿 出 来 ， 
利用 独立 的 网 络 对 其 更 新 。DDPG 的 更 新 公式 为 


=T + YQ” (S141, ho (ssD) — Q" (8,4) 

Wi+1 = Wi F Qu Ât Vu Q” (:, 02) 

0:41 = 0: + a Vo ho (6) ViQ” (84, @i)la= wa 
-一 7T0 十 (1 一 T)0- 


w 一 TU 十 (一 T)W 


最 后 ， 我 们 给 出 DDPG 的 伪 代 码 ， 如 图 9.4 所 示 。 


Randomly initialize critic network Q(s, a|@@) and actor u(s|8”) with weights @° and 6”. 
Initialize target network Q’ and p’ with weights 0? + 09, 6 — 6” 
Initialize replay buffer R 
for episode = 1, M do 
Initialize a random process NV for action exploration 
Receive initial observation state s] na 
for t= 1, T do TRINA PALER 


Select action 
Exec 


anc 
Store transition (8+, at, rt, S¢4;) in R 
co aot a random ee of N transitions (si Qi, Ti, Si+ 1 ) from R 


7. 
€ WD (vi — Q(si, aj |02)? ) 
Update the actor fear using the i gradie nt: 


Vorllls, 之 N | SO VaQ(s,0/6%)|, sa uls) Vor ulsa" ) s: 


Update the target networks: 


目标 网 络 参 数 更 新 


end for 
end for 


图 9.4 DDPG 伪 代码 


9.2 习题 


1.DDPG 与 DPG 的 区 别 ， 可 以 解决 哪些 问题 ? 
2.AC 算 法 的 网 络 结构 是 什么 ? 

3. 利 用 DDPG 的 方法 解决 四 足 机 器 人 行走 问题 。 
4. 借 鉴 DQN，DDPG 有 哪些 地 方 可 以 修改 ? 


10 基于 引导 策略 搜索 的 强化 学 习 方 法 
10.1 理论 基础 


引导 策略 搜索 方法 (Guided Policy Search, GPS) 最 早 是 2013 年 
Sergey Levine 在 斯 坦 福 读 博士 时 提出 来 的 HL/] 。Levine 博 士 毕业 后 便 去 
了 伯克利 跟随 Pieter Abbeel 做 博士 后 研究 ， 出 站 后 留 在 伯克利 大 学 任 
教 。 查 阅 他 的 教育 经 历 会 发 现 Levine 读 博 期 间 的 导师 并 不 是 做 机 器 人 方 
向 的 ， 而 是 从 事 计 算 机 图 形 学 方向 的 研究 。Levine 在 读 博 期 间 要 解决 的 
是 计算 机 仿真 中 人 物 的 逼真 运动 ， 这 是 通过 模仿 学 习 或 机 器 学 习 来 完 
成 的 。 

以 上 是 题 外 话 ， 言 归 正 传 。 如 图 10.1 为 策略 搜索 方法 的 分 类 ， 从 
引导 策略 搜索 提出 至 今 ， 引 导 策 略 搜 索 方 法 其 实 已 经 扩展 出 了 有 模型 
和 无 模型 的 两 种 情况 。 与 其 他 直接 的 策略 搜索 方法 不 同 ，GPS 不 会 直 
接 搜 索 策 略 ， 而 是 将 策略 搜索 方法 分 为 两 步 : 控制 相 和 监督 相 。 


基于 模型 的 策略 搜索 方法 


无 模型 的 策略 搜索 方法 


引导 策略 搜索 : (GPS) 
传统 控制 器 + 监督 学 习 


方差 约 简 


图 10.1 策略 搜索 方法 分 类 

那么 ， 引 导 策 略 搜索 方法 为 什么 要 这 样 操作 呢 ? 
首先 ， 我 们 先 看 看 第 8 章 TRPO 方 法 和 DDPG 方 法 的 局 限 性 。 从 图 
10.1 策 略 搜索 方法 的 分 类 可 以 看 出 ， 这 两 种 方法 都 是 无 模型 的 强化 学 习 
算法 。 无 模型 的 强化 学 习 算 法 有 很 多 优点 ， 比 如 可 以 不 用 对 外 界 建 
模 ， 尤 其 当 外 界 环境 非常 复杂 ， 很 难 建 模 或 根本 无 法 建 模 时 ， 该 方法 
是 唯一 的 方法 。 但 是 ， 无 模型 的 强化 学 习 算 法 也 有 其 固有 的 缺点 : 


为 没有 模型 ， 所 以 无 模型 的 强化 学 习 算 法 只 能 通过 不 断 尝试 来 探索 环 
境 ， 这 些 算法 只 能 处 理 参数 最 多 为 数 百 个 的 策略 网 络 ， 对 于 更 大 的 策 
略 网 络 ， 这 些 方法 学 习 效 率 不 高 。 原 因 很 简单 : 当 随 机 初始 化 有 数 干 
个 或 上 万 个 参数 的 网 络 时 ， 随 机 尝试 根本 无 法 产生 好 的 数据 。 因 此 ， 
对 于 复杂 的 任务 ， 随 机 探索 几乎 找 不 到 成 功 的 解 或 者 好 的 解 ， 而 没有 
成 功 的 解 或 好 的 解 ， 智 能 体 就 无 法 从 中 学 到 好 的 动作 ， 也 就 无 法 形成 
良性 循环 。 综 上 ， 无 模型 的 强化 学 习 算 法 最 大 的 缺点 是 数据 效率 低 。 

解决 无 模型 随机 探索 问题 的 方法 是 利用 模型 探索 。 如 何 得 到 模 
型 ? 一 般 来 说 要 么 从 数据 中 学 一 个 模型 ， 要 么 人 为 地 建立 智能 体 探 索 
环境 的 近似 模型 ( 建 机 器 人 模型 是 机 器 人 学 和 机 器 人 专家 们 一 直 乐 于 
做 的 事情 ) 。 

有 了 模型 ， 我 们 可 以 做 哪些 事 呢 ? 

第 一 ， 利 用 模型 和 基于 模型 的 优化 算法 ， 可 以 得 到 回报 高 的 数 
据 ， 也 就 是 好 数据 。 有 了 好 数据 ， 就 可 以 稳定 训练 策略 网 络 。 

第 二 ， 有 了 模型 ， 我 们 可 以 充分 地 利用 示例 (demonstration) 学 
习 。 人 的 示例 可 以 当成 模型 的 初 值 。 

所 以 GPS 方法 将 策略 搜索 方法 分 成 控制 相 和 监督 相 。 其 中 控制 相通 
过 轨迹 最 优 、 传 统 控制 器 或 随机 最 优等 方法 控制 产生 好 的 数据 ; 监督 
相 利 用 从 控制 相 产生 的 好 数据 进行 监督 学 习 。 

我 们 直观 对 比 下 普通 的 强化 学 习 方 法 和 GPS 的 方法 ， 如 图 10.2 所 
示 。 强 化 学 习 是 智能 体 通 过 与 环境 交互 产生 数据 ， 从 交互 数据 中 学 
习 ， 如 图 10.2 中 的 图 A 所 示 ; GPS 是 策略 网 络 通过 与 控制 相 的 交互 产生 
数据 ， 从 控制 相 产生 的 数据 中 学 习 。 换 句 话 说 ， 在 无 模型 的 情况 下 ， 
智能 体 (策略 网 络 ) 是 通过 试 错 向 环境 学 习 ; 而 GPS 的 方法 是 向 逐渐 迭 
代 优 化 的 控制 器 学 习 。 


最 优 控制 


图 A 一 图 B 
智能 体 观 新 
测 的 
Pe a 
R S 
环境 


状态 转移 概率 _P(Sr+llsra) 


控制 相 
图 10.2 强化 学 习 原 理 图 和 GPS 原理 图 
我 们 已 经 知道 了 GPS 的 基本 原理 ， 那 么 如 何 用 数学 公式 进而 用 代码 
来 实现 呢 ? 
在 回答 这 个 问题 之 前 ， 我 们 先 简单 了 解 GPS 算法 的 发 展 历程 ， 更 
好 地 理解 GPS 的 实现 思路 。GPS 的 发 展 可 以 从 三 个 方面 了 解 。 
从 问题 的 构建 来 看 ，GPS 经 历 了 基于 重要 性 采样 的 GPS 
(ISGPS) ~ 基于 变 分 推理 的 GPS (vGPS) -~ 基于 约束 的 GPS 
(cGPS) 的 过 程 。 这 是 Levine 读 博 期 间 的 发 展 思路 。 
从 优化 方法 来 看 ， 基 于 约束 的 GPS 的 优化 ， 经 历 了 Dual GPS (基于 
对 偶 梯 度 下 降 法 ) (20144) [18] -~ BADMM 方 法 (布雷 格 曼 交叉 方向 
乘 子 法 ) (2015Æ) [19] ~ Mirror Descent GPS (镜像 下 降 优化 算法 [20] 
) 的 过 程 。 
从 控制 相 来 看 ，GPS 从 基于 轨迹 最 优 (微分 动态 规划 DDP、 线 性 二 
次 规划 LQR 和 线性 二 次 高 斯 LQG) 发 展 到 了 随机 最 优 控制 PI2 GPS. 

接 下 来 我 们 推导 GPS 算 法 的 公式 。 具 体 来 说 我 们 推导 基于 约束 的 引 
导 策 略 搜 索 方 法 的 公式 。 我 们 依据 2014 年 Levine 在 ICML 上 的 论文 
Learning complex neural network policies with trajectory optimization 讲 
解 。 原 因 在 于 该 论文 用 了 比较 全 面 的 数学 技巧 ， 通 过 学 习 这 些 数学 技 
巧 ， 便 可 以 看 懂 GPS 系 列 的 其 他 论文 。 

基于 约束 的 引导 策略 搜索 方法 可 形式 化 为 


ming, Dkr (q(7)||e(7)) 
s.t. q (z) = p(x), 
(10.1) 
q (Tirili Uz) = p(TipilTes 2), 


Dx, (q (Zi) To (ule) lla (Zi, i) ) =0 


其 中 目标 函数 为 in Dialer) | p(r)cexp(I(r)) . 


0,q(7) 


(10.1) 式 给 人 的 第 一 印象 是 复杂 ， 强 化 学 习 的 目标 为 什么 变 成 了 
一 个 KL 散 度 ? 
首先 ， 我 们 先 定 义 KL 散 度 。 


设 9(7),p(7) 是 两 个 分 布 ， 则 两 个 分 布 之 间 的 KL 散 度 为 


dar 


_ oe OT 
Daal) = | arog 


KL 散 度 是 衡量 两 个 概率 分 布 之 间距 离 的 度量 。 比 如 ， 当 两 个 分 布 
相等 时 ， 距 离 为 0。 

强化 学 习 的 目标 ， 为 什么 可 以 表示 成 如 (10.1) 式 的 KL 散 度 呢 ? 

我 们 利用 KL 散 度 公 式 展开 目标 函数 : 


= q(T) 
Drr (a(7)||e(7)) = f og Zar 


(10.2 ) 
= J q(T)logg(T)dr — / q(r)logp(r)dr 


将 p(T)xexp(1(7)) 代入 (10.2) 并 忽略 常数 ， 可 以 得 到 : 


Dia (9(7)||e(7)) 
=-H(q) — E, (I(T) ) + const 


SB -MAD Aq, ACMAARAERAHAS. (10.1) 式 最 小 
EEAS SF RALARERA RA. SB I 5S ARTE MEAN 
ES, TAERA, WEAK. UM RALIED T RIERA 
布 是 一 个 分 布 ， 而 非 一 个 确定 值 。 第 二 项 是 最 大 化 累积 回报 ， 和 常用 
的 强化 学 习 目 标 保持 一 致 。 

将 约束 利用 拉 格 朗 日 乘 子 代 入 目标 函数 ，cGPS 整 个 问题 的 拉 格 朗 
日 函数 为 


L(0,4,A) = Da(g(rjllo) + TCR (103) 
其 中 轨迹 优化 相 的 优化 问题 为 
=- Y Balen) - H (q) +A Eyo) [Dr (mowed) la lule] (10.4) 
监督 相 的 优化 问题 为 
LO) = > 3? Di (ro (ul) lla (usa) (10.5) 


对 于 轨迹 最 优 相 ， 也 就 是 求解 (10.4) 式 时 ， 我 们 可 以 利用 轨迹 最 
优 算法 。 要 想 利 用 轨迹 最 优 算法 ， 必 须 求 出 每 一 步 的 代价 。 如 何 从 
(10.4) 式 中 求 出 每 步 的 代价 呢 ? 下 面 是 推导 过 程 。 

每 个 轨迹 分 布 49(7) 有 均值 地 = (rtr) ， 条 件 动作 分 布 
q (ulz) = N (u, + K2,, At) o 

ATAA-RMEHE, E2 DBA 0, RRMA 
T (udt) =N (WT t+ HALET), S, 是 相对 于 分 布 *(z,) 的 协 方差 。 

将 (10.4) 式 中 的 第 一 项 进行 二 阶 泰勒 展开 : 


L - ci 1 /a,\" 7 
t t t 
S En Ultu) =) Bex on T 网 laat 网 laa) 


t=1 


- a,\" 1 Ai T 
a Y [atom Odlau) + f azon | | Lud (zou) +5 fiean | Jue" 
= Ur Ut Ut 


忽略 常数 ， 第 一 项 可 写 为 


~ 
ll 
= 


AG EEA È 1 t,—2,\" 0 一 外 
| Lut 下 > z IE K + D q (Tit) i : laa i i 
也 2 \G, ù 2 u — ù, Uy, — U 


a) bet Ba ) bane 用 + TCD 
也 2 \, ü 
(10.4) 式 的 第 二 项 为 
H(q) =- | glogg 
- | dogr- F luil) Aua) (10.6) 
qlog 37) ATE P zlu- i u— ü ; 


= zloglAl + const 


在 给 出 第 三 项 之 前 ， 先 给 出 两 个 高 斯 分 布 的 KL 散 度 公式 。 
首先 给 出 高 斯 分 布 的 基本 公式 如 下 。 


[rou =i 


J wows 


[ro (x —p)*dx=0* 


ig f (2)~N(u,), g(2)~NW,D) ’ 求 Di (fllg) o 
利用 高 斯 分 布 的 基本 公式 可 以 求 得 : 


Daf) = /hey 

= J f(a)logf(2) de — J F(a)logg (a)de 

= | iolra,- (lo~)"E*(e— nt 

- | taosg- 4-tur lew a) ee 


= (lg T+T ET-I))+ v1) 
(10.7) 
其 中 第 三 个 等 号 一 定 要 配方 ， 这 样 才 能 利用 高 斯 分 布 的 二 阶 矩 计 
算 。 有 了 任意 两 个 高 斯 分 布 的 KL 散 度 ， 再 计算 第 三 项 ， 去 掉 常 数 项 得 
到 
bt, [Du (mo (u,|2,)| lq (u,|z,)) | 
=F, log! Ay F 3tr(An'D) + ((uz + ia) 一 (w + Ka,))" AP (pr + paz) = (u+ Kz,)) 
(10.8) 


其 中 (10.8) 的 第 三 项 可 以 写成 
X= ((W + ust par- pai) — (wt Kè + Kr, — K3)) ) 


feo (Cui + pat) — (uy + Kez)” Ar (Cue + paz) — (ty + Ka) do 
= fae) [Cai + pnt + par- pnt) — (wt Ke + Ka,— Ka))? AX jde 
= OLO a) + -K G9)" AX 


= Jolwa -A A Ww @ -t L- GB) AA EK) @—-2) ee 
= (pr) â) Ay (uF (@) — + Tr(S (ps —K)? A” (us —K)) 
最 后 从 (10.5) (10.6) (10.8) 式 ， 我 们 得 出 轨迹 优化 相 的 目标 


了 A A Pa 
1 Vt d Vt Vt T 1 il 
L(q) © > 让 lz] baat = = 加 low 5 Fr (Dileu cut) = 210g|4 
1 1 ~ . : _ 
+ (084 + git (Aer) + (ur (2) — 4)" A (uz (2) —û,) +Tr(S(ui K)" AP (ui —K)) 
(10.9) 


这 时 每 步 的 代价 函数 为 


A\T A A\T 
l = ; H ee = H la = In (D, bis) ~ slog |A| 
Ut 


Uy Ur 
+), (Foe + 5tr(4227) + (uz (@) — â) Ar (uF (ê) 一 区 +Tr(S (ps K)" A; (ui —K)) 


然后 利用 轨迹 最 优 方法 ， 如 DDP 或 LQR 便 可 以 得 到 最 优 的 gq。 
监督 相 可 以 利用 两 个 正 态 分 布 的 KL 散 度 公式 (10.7) 得 出 : 


L(6) = SaD T, (BA) — log)" | + (Kms th— u" (a,))" A (Kin + k- u" (2,))} 


(10.10) 
利用 随机 梯度 下 降 或 者 LBFGS 方 法 训练 神经 网 络 。 
最 后 更 新 入 值 。 
AL HA t+ nDux (q (a1) To (uile) ||g (ze, Ue) ) (10.11 ) 


根据 cGPS 的 计算 公式 ，cGPS 算 法 的 实现 伪 代 码 如 图 10.3 所 示 。 


Algorithm 1 Constrained guided policy search 
: Initialize the trajectories {q,(T),..., qu (T)} 
: for iteration k = 1 to K do 
Optimize each q(T) with respect to £(0, gi(T), Ài 一 (10.9 10. 9) 


l 
3 
4: Optimize @ with respect Pa i1 L(0.qi(T), Ai (10. 10) 
5: Update dual variables A using i (10.11) 
CS 


6: end for 
7: return optimized policy parameters 0 


110.3 cGPS 伪 代码 


10.2 GPS 中 涉及 的 数学 基础 


10.2.1 监督 相 LBFGS 优 化 方法 


我 们 已 经 在 8.2 节 介绍 了 BFGS 方 法 。 在 8.2.2 节 中 ， 最 后 求 得 的 
Hessian 近 似 和 矩阵 为 


Bi si sx By YY. 


a an Ba ae (10.12 ) 
利用 Sherman-Morrison 公 式 ， 即 
-1 T A-1 
(A+ wT)” =A — A w A (10.13 ) 


1+v7A'tu 


ALA Bei A Aa 为 


T T T 
H,+ı = (r L Ja, (r- a + SkSk (10.14 ) 
Yk Sk Yk Sk Yk Sk 

BFGS 是 只 适合 中 小 规模 的 最 优 算法 ， 因 为 它 需 要 存储 一 个 NxN 
的 矩阵， 如 果 N 非 常 大 ， 需 要 占用 大 量 的 内 存 空间 ， 导 致 矩 阵 的 读 取 和 
存储 耗费 大 量 的 时 间 。 有 没有 一 种 不 需要 存储 如 此 大 的 和 矩阵 的 算法 
呢 ? 

答案 是 肯定 的 ! 其 中 一 个 算法 就 是 L-BFGS。L-BFGS 的 全 称 为 
Limited-memory BFGS. 

PRENRARNSTBERRENEIH, ， 而 是 存储 计算 过 程 
中 的 迭代 点 (5;》 和 迭代 过 程 中 的 梯度 差 序列 4y;; ， 而 且 L-BFGS 并 不 需 
要 存储 所 有 的 迭代 序列 ， 只 需要 存储 最 近 的 m 个 迭代 序列 即 可 ， 因 此 存 
储 由 原来 的 O(N?) 降 到 了 0O(mN)。 


为 了 推导 Ha NH BHF KR, BR i ic 


1 = 
Pk 7 oe YR’ V; = (I — prynse ) > WA. 可 表示 为 


H, = Ve HeVit press (10.15 ) 


由 于 在 L-BFGS 中 不 需要 存储 有 ，L-BFGS 并 不 采用 (10.15) 式 计 
SSR A. ， 而 是 通过 mm 次 迭代 计算 得 到 。 和 迭代 的 初试 值 为 


T 
S 
HO =k | (10.16) 
ll yell 


(10.16) 式 只 用 到 了 s 和 yi 的 值 。 迭 代 计算 公式 为 


HEP = Vin HV, ntit ps m+ jk wise m+; =0, b m ( 10.17 ) 


Hi eH (10.18) 


在 (1017) 式 的 迭代 计算 公式 中 ， 用 到 了 
Veins a 和 # 而 了 这些 量具 与 
Sk_mySkg-m+19"… Sk 和 Yh-_myYk-m+1，,"…,Ys 有 关 。 因 此 对 于 大 规模 无 约 
束 优化 问题 ，L-BFGS 在 计算 有 Hi;1 时 所 需要 的 存储 量 大 幅 减 小 。 由 
(10.17) 式 和 (10.18) 式 可 以 得 到 Hi41 为 
a ha 

=Vi H, Ve + passe 
= (Vio Vim) He Vrm Va) (10.19) 


m m—j-l1 m—j-1 
+ Dron [| Vi Js m+ j Sk- al [| v 
j=0 1=0 


10.2.2 ADMM 算 法 


前 面 介绍 了 GPS 算法 的 发 展 ， 其 中 提 到 GPS 使 用 的 优化 方法 。 本 
节 重 点 介绍 ADMM 方 法 ， 它 的 全 称 为 Alternating Direction Method of 
Moultipliers， 中 文 译 为 “交替 方向 乘 子 法 ””。ADMM 并 不 是 一 个 新 的 算 
法 ， 它 最 早 分 别 由 Glowinski，Marrocco 及 Gabay，Mercier 于 1975 年 和 
1976 年 提出 ， 并 被 Boyd 等 于 2011 年 重新 综述 且 证 明 它 适用 于 大 规模 分 
布 式 优化 问题 。 

从 算法 的 发 展 历史 来 看 ，ADMM 方法 并 非 全 新 的 概念 ， 而 是 整合 
了 很 多 经 典 的 优化 思路 。 更 确切 地 说 ，ADMM 整合 了 乘 子 法 的 收敛 性 
和 对 偶 上 升 法 的 可 分 解 性 。 因 此 ， 为 了 更 自然 地 理解 ADMM 算 法 ， 我 
们 先 介绍 对 偶 上 升 法 和 拉 格 朗 日 乘 子 法 。 

1. 对 偶 上 升 法 

首先 考虑 等 式 约 束 问 题 如 下 。 

minimize f(x) 


(10.20 ) 
subject to Ar —b=0 


( 1020 ) st Pr WwW HH eR A 
L(x,y) = f(x) +y” (Az —b) 


(10.20) 式 的 最 小 问题 可 写成 蕊 下 max 了 7, 


它 所 对 应 的 对 偶 问题 为 max min L (z, y) 
对 偶 上 升 法 的 迭代 更 新 公式 为 


2 一 arg min, L(2,y*) 


lee =" + a*(Ax**? — b) 


(10.21) 式 的 收敛 性 需要 较 强 的 假设 ， 其 中 oa” 的 选择 具有 比较 
强 的 挑战 性 。 虽 然 对 偶 上 升 法 存在 固有 的 缺陷 ， 但 它 还 是 有 一 些 非常 
SAE, BO Hemme) 可 分 时 ， 整 个 优化 问题 可 以 
分 成 多 个 子 参 数 问 题 ， 分 块 优化 后 再 汇集 起 来 整体 更 新 ， 这 样 非常 有 
利于 并 行 化 处 理 。 下 面 我 们 介绍 对 偶 分 解法 。 

假设 目标 阔 效 是 可 分 解 的， 即 


(10.21 ) 


fe) => file) (10.22 ) 
HBA A KAAS A 
L(a,y) = > ,Fi(z,N) = >》 (fila) +y" Ait: — (1/N)y7b) ( 10.23 ) 
基于 对 偶 分 解法 的 更 新 如 下 。 
并 行 分 块 优化 ， 每 块 的 优化 迭代 为 
vj **=arg min, L;(2,,y") (10.24 ) 
并 行 优化 得 到 X21,.…,Zw 后 ， 更 新 对 偶 量 : 


y*tt=y*+a*(Ar***—b) (10.25 ) 


其 中 z A (10.24) 式 中 的 2 ,…,zN” 构成。 

对 偶 上 升 法 对 目标 图 数 的 要 求 比较 奇 刻 ， 对 于 收敛 性 也 需要 较 强 
的 假设 ， 为 了 弱化 这 些 假设 ， 研 究 者 在 20 世 纪 60 年 代 提 出 了 拉 格 朗 日 
乘 子 法 。 

2. 拉 格 朗 日 乘 子 法 

在 拉 格 朗 日 乘 子 法 中 ， 使 用 扩展 拉 格 朗 日 国 数 代替 上 面 的 拉 格 朗 


日 函数 : 
L, (z,y) = f (£) +y” (Ax —b) + (p/2) | Az — b||? 
乘 子 法 更 新 的 步骤 为 


k+ 


rtt: = arg min L, (2z,y") 
: (10.26 ) 
ytt: =y" + p(Azr*t*—b) 
从 更 新 式 子 来 看 ， 乘 子 法 的 更 新 式 (10.26) 与 对 偶 上 升 法 的 的 更 
新 式 (10.21) 几乎 完全 相同 。 不 同 的 是 乘 子 y 的 更 新 式 子 。 在 
(10.21) sth, FY 的 更 新 步 a* 是 一 个 不 确定 的 量 ， 而 在 乘 子 法 
中 ， 乘 子 y 的 更 新 步 是 确定 的 量 C_ ， 即 扩展 拉 格 朗 日 函数 中 的 惩罚 项 


系 效 。 这 个 系数 并 非 随意 的 ， 而 是 收敛 性 得 到 保证 的 关键 因素 。 下 面 
我 们 证 明 该 系数 可 以 保证 算法 收 全 


证 明 
对 于 原 问 题 (10.20) 式 ， 极 值 点 处 应 满足 的 必要 条 件 为 
OL oo ae 
Se = Vila") + ATy =0 (10.27) 


与 原 问 题 等 价 的 使 用 扩展 拉 格 朗 日 函数 (10.26) 式 在 迭代 点 处 应 
满足 的 必要 条 件 为 


0=V.L,(a**1,y*) 
=V_f(a*"™) +A? (y* + p(Az*** —8)) 
在 新 的 迭代 点 处 (10.28) RA (10.27) 式 应 该 具有 等 价 性 ， 也 就 
是 说 新 的 迭代 点 应 满足 下 式 
ytt =y" + p(Az***—6) ( 10.29 ) 


相 比 于 对 偶 上 升 法 ， 扩 展 拉 格 朗 日 乘 子 法 使 得 收敛 性 条 件 更 宽 
松 ,但 它 破坏 了 分 解 参 数 并 行 的 优势 。 因 为 当 f (2) 可 分 时 ， 扩 展 拉 格 
朗 日 函数 却 不 是 可 分 的 〈 平 方 项 导致 图 数 不 可 分 ) ， 也 就 是 在 优化 Z 
的 时 候 无 法 并 行 优化 。 为 了 解决 这 个 问题 ， 研 究 者 们 提出 了 ADMM 的 
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3.ADMM 方 法 〈 交 蔡 方 向 乘 子 法 ) 

ADMM 方法 全 称 为 交 蔡 方向 乘 子 法 ， 它 融合 了 对 偶 上 升 法 的 可 分 
解 性 和 乘 子 法 的 收敛 属性 ， 核 心 是 引入 了 新 的 变量 ， 然 后 将 目标 冰 数 
拆 分 成 可 分 的 部 分 和 不 可 分 的 部 分 。 可 分 的 部 分 利用 并 行 处 理 ， 不 可 
分 的 部 分 当成 新 的 目标 函数 独立 优化 ， 两 者 通过 引入 约束 条 件 协同 更 
新 。 具 体操 作 如 下 。 

ADMM 将 原 最 小 化 问题 (10.20) 式 转 化 为 如 下 约束 优化 问题 : 

minimize f(x) + g(z) 
subject to Ax + Bz=c 


(10.30) 式 中 的 f(z) 和 约束 条 件 都 是 可 分 的 。 与 之 对 应 的 扩展 拉 
格 朗 日 表达 式 如 下 。 
L,(2,2,y) =f (x) + g(z) +y? (Mo Bz—c) + (p/2) || Az + Bz —ell3 
由 于 引入 了 新 的 变量 ， 使 得 原 乘 子 法 中 心 对 Z 不 可 分 变 成 可 分 
的 。ADMM 的 更 新 步骤 为 


( 10.28 ) 


( 10.30 ) 


a**!:= arg min L, (2,z*,y*) 
T 


z**1:= arg minL ("t zy") (10.31 ) 


ytt: =y" + p(Ar*t*+ Bz*tt—c) 

其 中 (10.31) 式 中 的 第 一 式 关 于 2 的 迭代 可 采用 分 布 式 计算 。 

ADMM 算法 与 乘 子 法 很 像 ， 不 同 的 是 乘 子 法 把 z 和 2 当成 一 个 变 
量 来 求解 ; 而 ADMM 则 是 分 开 求 解 。 

(10.31) 式 的 第 二 式 用 来 更 新 ， 与 本 书 第 3 章 介绍 的 高 斯 - 赛 德 
尔 迭 代 计 算 类 似 。 在 高 斯 - 赛 德 尔 迭 代 计 算 中 ， 首 先 更 新 部 分 变量 ， 然 
后 基于 更 新 的 部 分 变量 更 新 剩余 的 变量 。ADMM 算 法 则 是 首先 更 新 ， 
然后 基于 更 新 的 Z 更 新 2 。 不 同 的 是 ，ADMM 在 更 新 z 时 用 的 是 不 同 
的 优化 函数 ， 即 二 (rët zy") o 


10.2.3 KL 散 度 与 变 分 推理 


前 面 介 绍 GPS 的 发 展 历史 时 ， 第 一 个 面向 是 从 问题 的 构建 来 介绍 
BY, GPS 先后 经 历 重要 性 采样 GPS， 变 分 推理 GPS 和 约束 GPS。 本 节 将 
从 数学 的 角度 来 分 析 变 分 推理 GPS 和 约束 GPS 的 区 别 及 联系 ， 以 及 为 何 
由 变 分 推理 GPS 发 展 成 约束 GPS。 

1. 一 般 形式 的 期 望 最 大 (EM) 方法 

设 最 大 似 然 率 函 数 为 2(XI0) ， 其 中 X 为 观测 变量 。 当 存在 潜在 变 
量 2 的 时 候 ， 直 接 优 化 似 然 率 函 数 是 很 困难 的 ， 这 时 我 们 引入 潜在 变 
量 的 分 布 442) ， 似 然 率 函数 的 对 数 可 写 为 


Inp (X10) = /aarp xioyaz 


= /om p(X,Z)8) y7 


(ax) A 
_ i (eae q(Z) ( 10.32) 
=| ton a(2) Aa) 
Bad) (Z) 
= f 2m0 PO a+ fa h IA dZ 


=L(q,) saunas 
通常 E 步 用 来 最 小 化 (10.32) 式 的 第 二 项 KL(q(2)||lp (ZIX)),，M 
步 在 FE 步 的 基础 上 最 大 化 第 一 项 L(g,90) 。 
其 实 第 一 项 L(g,0) 可 写 为 
L(g,0) =-KL(q(Z)||p (X,2|0)) 


在 变 分 推理 GPS 中 ， 隐 变量 2 为 轨迹 7 ， 显 变量 为 回报 及 。 利 用 
EM 方法 ， 变 分 推理 GPS 最 终 的 优化 目标 为 


L(q,Onew) =—- KL (pr (7) ||P (73 Onew) ) + const (10.32 ) 
在 约束 GPS 中 ， 优 化 目标 为 
Dr (gq(7)||p(7)) = KL (ql |pe) (10.33 ) 


(10.32) 式 和 (10.33) 式 同 为 KL 散 度 ， 分 别称 为 动量 映射 和 信息 
映射 [16] ， 下 面 我 们 具体 介绍 两 者 的 异同 。 

我 们 设 2 为 目标 概率 分 布 ， 4 为 目标 概率 分 布 的 逼近 分 布 ， 我 们 
求 4 分布 ， 以 便 4 分 布 近似 目标 分 布 2 。 一 般 而 言 ， 我 们 可 以 最 小 化 
PAI 之 间 的 KL 散 度 求 得 逼近 分 布 9 。 然 而 KL 并 非 对 称 的 ，p 和 4 之 


间 的 KL 散 度 有 两 种 ， 分 别 为 KL(p|lq) 和 KL(gllp) ， 两 者 的 区 别 如 
下 。 


映射 4 一 arg minKL (p||q) 称 为 动量 映射 或 M-projection。 在 优化 
过 程 中 ， 动 量 映射 强迫 和 逼近 分 布 4 在 目标 分 布 p 拥有 高 概率 的 点 处 同样 
拥有 高 的 概率 。 因 此 ， 如 果 逼 近 分 布 4 是 一 个 高 斯 分 布 ， 那 么 动量 映 
射 或 M-projection 试 着 平均 2 所 有 的 模式 。 


映射 4 一 arg minKL (gllp) 称 为 信息 映射 或 者 Lprojection。 在 优 


化 过 程 中 ， SRR BAHAI 在 目标 分 布 为 零 的 点 处 同样 为 
零 。 因 此 ， 如 果 副 近 分 布 是 一 个 高 斯 分 布 ， 那 么 信息 映射 或 者 动量 映 
Neil MANS MRA. 

现在 ， 我 们 可 以 总 结 变 分 GPS 和 约束 GPS 的 区 别 了 。 变 分 GPS 得 到 
的 是 最 优 策略 的 M-projection， 如 (10.32) 式 所 示 。 根 据 该 式 优化 得 到 
的 策略 试图 覆盖 整个 高 概率 轨迹 ， 这 难免 会 包括 一 些 低 概率 的 轨迹 ， 
就 会 导致 任意 坏 的 轨迹 也 有 高 的 轨迹 ， 使 策略 骨 溃 。 而 约束 GPS 得 到 
的 最 优 策略 是 Lprojection， 如 (10.33) 式 所 示 。 根 据 I-projection 的 性 
质 ， 坏 的 轨迹 会 得 到 抑制 。 因 此 ， 相 比 于 变 分 GPS， 约 束 GPS 能 得 到 
更 稳定 的 优化 策略 。 


10.3 习题 


1.GPS 都 有 哪些 算法 ? 

2.GPS 中 动力 学 拟 合 方法 都 有 哪些 ? 
3. 利 用 GPS 解决 倒立 摆 问 题 。 

4. 利 用 GPS 解决 机 器 人 路 径 规划 问题 。 


第 四 篇 强化 学 习 研 究 及 前 沿 


11 逆向 强化 学 习 
11.1 概述 


本 节 我 们 先 介绍 逆向 强化 学 习 的 概念 和 分 类 ， 如 图 11.1 所 示 。 


| 最 大 边际 形式 化 “| 基于 概率 模型 的 形式 化 
图 11.1 逆向 强化 学 习 的 分 类 


第 一 个 概念 ， 什 么 是 逆向 强化 学 习 ? 

前 面 已 经 介绍 了 强化 学 习 。 强 化 学 习 是 求 累 积 回 报 期 望 最 大 时 的 
最 优 策略 ， 在 求解 过 程 中 立即 回报 是 人 为 给 定 的 。 然 而 ， CRS is 
中 ， 尤 其 是 复杂 的 任务 中 ， 立 即 回报 很 难 指定 。 那 么 该 如 何 得 到 这 
回报 函 效 呢 ? 

人 类 在 完成 复杂 的 任务 时 ， 根 本 就 不 会 考虑 回报 水 数 。 但 是 ， 这 
并 不 是 说 人 在 完成 任务 时 就 不 存在 回报 冰 数 。 可 以 这 么 说 ， 其 实 人 在 
完成 具体 企 务 时 有 隐形 的 回报 函数 。 所 以 ， 指 定 加 报国 数 的 ”种 方法 
是 从 人 的 示例 中 学 到 隐形 的 回报 阔 数 。 

如 何 学习 这 种 回报 阔 效 呢 ? 

答案 是 : 建 模 。 逆 向 强化 学 习 的 提出 者 吴 恩 达 的 思路 是 这 样 的 : 
专家 在 完成 某 项 任务 时 ， 其 决策 往往 是 最 优 的 或 接近 最 优 的 ， 那 么 可 
以 这 样 假设 ， 当 所 有 的 策略 产生 的 累积 回报 期 望都 不 比 专家 策略 产生 
的 累积 回报 期 望 大 时 ， 强 化 学 习 所 对 应 的 回报 函 效 融 是 根据 示例 学 到 
HIERZ 

因此 ， 逆 向 强化 学 习 可 以 定义 为 从 专家 示例 中 学 习 回报 函数。 

第 二 个 概念 是 逆向 强化 学 习 的 分 类 。 


如 果 用 数学 的 形式 表示 逆向 强化 学 习 的 早期 思想 ， 那 么 它 可 以 归 
结 为 最 大 边际 化 问题 (我 们 在 下 一 节 会 具体 介绍 ) 。 如 图 11.1 所 示 是 强 
化 学 习 最 早 的 思想 。 根 据 这 个 思想 发 展 的 算法 包括 : 学 徒 学 习 [21] 、 
MMP 方 法 [22] 、 结 构 化 分 类 [23] 和 神经 逆向 强化 学 习 [24] 。 

最 大 边际 化 的 最 大 缺点 是 很 多 时 候 不 存在 单独 的 回报 函数 使 得 专 
家 示例 行为 既是 最 优 的 又 比 其 他 任何 行为 好 很 多 ， 或 者 有 很 多 不 同 的 
回报 函数 会 导致 相同 的 专家 策略 ， 也 就 是 说 这 种 方法 无 法 解决 歧义 的 
问题 。 

基于 概率 模型 的 方法 可 以 解决 歧义 问题 。 学 者 们 利用 概率 模型 发 
BW REC MRSS, UBASM MRL, Ae ea 
eA. BASREVRRWEY, BFRRRHN MBL EY 
等 。 


11.2 基于 最 大 边际 的 逆向 强化 学 习 


本 节 我 们 来 了 解 基 于 最 大 边际 的 逆向 强化 学 习 的 四 种 方法 ， 这 四 
种 方法 几乎 涵盖 了 近 十 年 来 逆向 强化 学 习 在 最 大 边际 方向 上 的 发 展 。 

第 一 个 问题 ， 为 什么 要 提出 逆向 强化 学 习 ? 

从 第 2 章 到 第 10 章 ， 我 们 介绍 了 强化 学 习 算法 ， 包 括 如 何 策略 评 
估 ， 如 何 策略 达 代 。 但 是 有 一 个 很 关键 的 问题 还 没有 提 及 ， 那 就 是 回 
报 函 数 。 因 为 在 利用 强化 学 习 算 法 时 ， 我 们 都 假设 回报 函数 是 人 为 给 
定 的 。 那 么 回报 阔 数 如 何 确定 呢 ? 这 其 实 有 很 强 的 主观 性 和 经 验 性 。 
由 于 回报 阔 效 的 不 同 会 导致 最 优 策 略 的 不 同 ， 因 此 它 非常 重要 。 但 是 
当 任 务 很 复杂 时 ， 我 们 很 难 人 为 给 出 回报 阔 数 。 比 如 在 自动 驾驶 中 ， 
回报 函数 可 能 是 信号 灯 、 前 面 的 汽车 ， 周 边 环境 等 各 种 因素 的 阔 数 ， 
我 们 很 难 人 为 判断 给 定 这 个 回报 阔 效 。 而 且 ， 在 执行 不 同 的 任务 时 ， 
回报 阔 效 也 不 同 。 所 以 ， 回 报 函 数 的 设 定 是 推广 强化 学 习 算法 应 用 的 
一 大 障碍 。 逆 向 强化 学 习 融 是 为 了 解决 回报 函数 的 问题 而 提出 来 的 
只 有 解决 该 问题 ， 强 化 学 习 算 法 才能 得 到 大 规模 应 用 。 
第 二 个 问题 ， 如 何 学 习 回 报 函 效 ? 
其 实 逆 向 强化 学 习 来 产 于 模仿 学 习 。 模 仿 学 习 本 身 是 一 个 很 大 的 
主题 。 小 孩子 在 学 习 走 路 的 时 候 ， 模 仿 大 人 。 人 类 学 习 很 多 技能 都 是 


从 模仿 开始 ， 但 有 人 只 模仿 到 了 表面 ， 而 有 人 模仿 到 了 精髓 。 最 早 的 
模仿 学 习 是 行为 克隆 ， 它 只 模仿 到 了 表面 。 行 为 克隆 是 指 机 器 将 人 的 
轨迹 记录 下 来 ， 下 次 执行 时 恢复 该 轨迹 。 行 为 克隆 的 方法 只 能 模仿 轨 
迹 ， 无 法 泛 化 。 而 逆向 强化 学 习 是 从 专家 (AA) 示例 中 学 到 背后 的 
回报 函数 ， 能 泛 化 到 其 他 场景 ， 因 此 属于 模仿 到 了 精髓 。 

下 面 我 们 介绍 下 逆向 强化 学 习 的 四 种 学 习 方 法 。 

(1) DA=: 学徒 学 习 方 法 。 

学 徒 学 习 是 吴 恩 达 和 Abbeel 提出 来 的 。 它 的 意思 是 智能 体 从 专家 
示例 中 学 到 回报 函数 ， 使 得 在 该 回报 函数 下 所 得 的 最 优 策 略 在 专家 示 
例 策略 附近 。 下 面 我 们 对 此 做 深入 分 析 。 

未 知 的 回报 函数 尽 (s) 一 般 都 是 状态 的 函数 ， 因 为 它 是 未 知 的 ， 所 
以 我 们 可 以 利用 函数 逼近 的 方法 对 其 进行 参数 逼近 ， 其 逼近 形式 可 设 
为 R(s) 二 w:9(s) ， 其 中 9(s) 为 基 水 数 ， 可 以 是 多 项 式 基底 ， 也 可 以 
是 侍 里 叶 基 底 。 逆 向 强化 学 习 要 求 得 的 是 回报 遂 数 中 的 系数 。 

‘RIERA EM, SBR ARR 

E, -p| V" (So) | 

= E[ELo y R(s,)|7] 
= E[DRoy'w: (s,)|7] 
=w: E[S2oy'd(s)|7] 

定义 特征 期 望 为 (7) 三 五 [22o7 (sr 。 需 要 注意 的 是 ， 特 
征 期 望 和 策略 7 有 关 ， 策 略 不 同时 ， 策 略 期 望 也 不 相同 。 

定义 了 特征 期 望 之 后 ， 值 水 数 可 以 写 为 Bs,_plV"(s0)] =w: u(r) 


(11.1) 


当 给 定 m 条 专家 轨迹 后 ， 根 据 定义 我 们 可 以 估计 专家 策略 的 特征 其 


r 1 
fie = — EDL o y b(s:”) (11.2) 


其 中 ， 专 家 状态 序列 为 专家 轨迹 {80 ,$1 ，,…)》 i o 

通过 前 面 引 入 特征 期 望 ， 逆 向 强化 学 习 可 以 转化 为 如 下 问题 : 寻 
找 一 个 策略 ， 使 它 的 表现 与 专家 策略 相近 。 

我 们 可 以 利用 特征 期 望 来 表示 一 个 策略 的 好 坏 ， 要 找到 一 个 策 
略 ， 使 它 的 表现 与 专家 策略 相近 ， 其 实 就 是 找到 一 个 策略 7 的 特征 期 
望 与 专家 策略 的 特征 期 望 相近 ， 即 使 如 下 不 等 式 成 立 : 


|| war) — ugl S€ 
当 该 不 等 式 成 立时 ， 对 于 任意 的 权重 上 wlli 三 1 ， 值 函数 满足 如 下 
不 等 式 : 
[IE[D% oy’R(s)|rs] — E[Xoy' R(s,)|7] | 
= |w a Hel bias 
< || wll || Car) — pple 
<l-e=e 


将 (11.3) 写成 伪 代 码 ， 如 图 11.2 所 示 。 
逆向 强化 学 习 伪 代码 : 


) 


imate via Monte Carlo) py’ = p(x’), and/se 


2. Compute t = maxy.ywjo<1 MINje{0..(i—-1)} w! (up 
pu’), and let w’? be the value of w that attains this 
maximum. 


3. Ift < e, then terminate. 


. Using the RL algorithm, compute the optimal policy 
x) for the MDP using rewards R = (w‘)" 4. 


a 
6. Set i= i+ 1, and go back to step 2. 


5. Compute (or estimate) yp“? = u(r" 


图 11.2 学 徒 学 习 伪 代 码 
其 中 第 二 行 的 目标 阔 数 为 


t = max v: lwla <1MİN je 9... G-p) W7 (We — uP) 
写成 标准 的 优化 形式 为 
max;, + 
s.t. wur Sw pw? +t, j=0,.…,i—1 


lwl <1 


注意 : 在 第 二 行 求解 时 ， pe 中 的 je {0,1, = 二 由 是 有 i 一 1 
次 迭代 得 到 的 最 优 策略 。 也 就 是 说 第 i 次 求解 参数 时 ，i-1 次 达 代 是 已 知 
的 。 这 时 候 的 最 优 遂 数值 t 相 当 于 专家 策略 Lz 与 j-1 个 迭代 策略 之 间 的 
最 大 边际 。 

如 图 11.3 所 示 为 最 大 边际 方法 的 直观 理解 。 我 们 可 以 从 支持 向 量 机 
的 角度 理解 。 专 家 策略 为 一 类 ， 其 他 策略 为 男 一 类 ， 参 数 的 求解 其 实 
就 是 找 一 条 超 曲 面 区 分 专家 策略 和 其 他 策略 。 这 个 起 平面 使 得 两 类 之 


间 的 边际 最 大 。 
He fw 
<i sgananeee= “#5 —— er (2) y 
word J v p aiik 
U(x) 


图 11.3 最 大 边际 方法 的 直观 理解 
第 四 行 是 在 第 二 行 求 出 参数 后 ， 得 到 回报 函数 及 二 (w) h, Fl 
用 该 回报 函数 强化 学 习 ， 从 而 得 到 该 回报 函数 下 的 最 优 策略 。 
综 上 ， 逆 向 强化 学 习 的 学 徒 学 习 方 法 可 分 为 两 步 : 第 一 步 在 已 经 
迭代 得 到 的 最 优 策略 中 ， 利 用 最 大 边际 方法 求 出 当前 回报 函数 的 参数 
值 ; 第 二 步 是 将 求 出 的 回报 函数 作为 当前 系统 的 回报 函数 ， 并 利用 正 


向 强化 学 习 的 方法 求 出 此 时 的 最 优 策 略 。 有 了 最 优 策略 再 转 到 第 一 
步 ， 进 入 下 次 循环 。 

(2) 方法 二 : 最 大 边际 规划 (MMP) 的 方法 。 

MMP 的 方法 将 逆向 强化 学 习 问 题 建 模 为 
D= { (X A Di Fo Yi L pte o 

式 中 从 左 至 右 的 每 一 项 分 别 为 状态 空间 ， 动 作 空间 ， 状 态 转 移 概 
率 ， 回 报 函 数 的 特征 向 量 ， 专 家 轨迹 和 策略 损失 函数 。 

在 MMP 的 框架 下 ， 学 习 者 试图 找到 一 个 特征 到 回报 的 线性 映射 也 
就 是 参数 ， 在 这 个 线性 映射 下 最 好 的 策略 在 专家 示例 策略 附近 。 该 过 
程 可 形式 化 为 


1 2, Y q 
min zlwl? +29 Ac: 
r (11.4) 
s.t. Viw f(y) +G max w? f(y) + L: (y) 
yE 


(11.4) 式 第 二 行为 约束 条 件 ， 该 约束 的 含义 如 下 。 

e 约 束 只 人 允许 专家 示例 得 到 最 好 的 回报 的 权 值 存在 ; 

e 回 报 的 边际 差 ， 即 专家 示例 的 值 辫 数 与 其 他 策略 的 值 遂 数 的 差 
值 ， 与 策略 损失 函数 成 正比 。 


此 处 的 策略 损失 函数 LC: (y) 是 指 策略 y 与 第 条 专家 轨迹 Yi 之 间 的 
差 ， 该 差 可 以 利用 轨迹 中 两 种 策略 选择 不 同 动作 的 总 和 来 衡量 。 

用 表示 第 i 个 专家 策略 ， 用 人 表示 任意 的 策略 。 回 报 函 数 利用 特 
征 的 线性 组 合 表示 ， 则 (11.4) 式 中 回报 函数 f(y;) = Fiu, BF, 
为 特征 基底 。 

原 问题 (10.4) 可 形式 化 为 


. 1 2 也 q 
min 5 llwll?+— > | Bs: 
£ (11.5) 
s.t. Vi w? F; +i Z max wT F;u+lf p 
HEG; 


此 处 的 策略 人/ 是 指 每 个 状态 被 访问 的 频次 ， 如 图 11.4 所 示 为 访问 频 


次 的 示例 。 
© a) T (s, a) 


图 11.4 策略 频次 流 


其 中 状态 s 处 的 频次 应 满足 流入 流出 关系 : 


dw pilama) +s = Y (11.6) 


请 留意 sz 表示 初始 位 置 。 
接 下 来 我 们 要 处 理 不 等 式 约 束 右 侧 的 最 大 值 ， 右 侧 的 最 大 值 等 价 
于 如 下 问题 。 
max 2 Fyw+l7 p 


BEG; 


; (11:7) 
subject to: X up, (x’|z,a) 十 sz = ee 


根据 拉 格 朗 日 对 偶 原 理 ( 凸 优化 中 的 知识 点 ， 不 了 解 的 同学 可 以 
自学 ) ， 其 对 偶 问 题 为 
mins; Vv 


; (11.8 ) 
subject to: Vz,a v? > (wT F,+1,)*°+ >》 p (x’|7,a)v” 


联合 (11.5) 和 (11.8) 式 ， 将 逆向 强化 学 习 转 化 为 一 个 二 次 规划 


问题 : 
1 2 y q 
min zlwl? + n 2 BG 
s.t. Vi w? Fim +G = 87 v; C119) 
Viga v AO FF >》 n (maur 


利用 吓 优 化 求解 方法 求解 系 效 ， 当 然 也 可 以 利用 其 他 更 有 效 的 方 
法 进行 求解 。 

(3) 第 三 个 方法 : 基于 结构 化 分 类 的 方法 。 

MMP 方法 在 约束 不 等 式 部 分 ， 变 量 是 策略 ， 需 要 迭代 求解 MDP 
的 解 ， 而 一 个 MDP 解 的 维 数 与 状态 的 维 数 相同 ， 因 此 求解 过 程 复 杂 ， 
计算 代价 很 高 。 那 么 ， 是 否 存在 不 用 求解 MDP 也 能 学 习 回 报 函 数 呢 ? 

当然 可 以 ， 我 们 接 下 来 要 介绍 的 结构 化 分 类 的 方法 就 是 其 中 的 一 
种 。 

在 学 徒 学 习 算法 中 ， 回 报 函 效 可 以 表示 为 


Ro (s) 一 0 G(s) 
行为 值 函 数 则 可 以 写 为 
Qé' (s,a) =0" p” (s,a) 


其 中 J,"(s,a) -可 并 7'b(S,)|So=s,Ao=a,7| A FF TE K 


t>0 


lo ATHIEARM, Bits (s,a) 二 Q$(s,4a) ， 我 们 可 以 理解 为 
立即 回报 函数 为 $;(s) 时 所 对 应 的 值 水 数 。 最 后 我 们 得 到 的 行为 值 滔 数 
其 实 是 不 同 立 即 回报 阔 数 所 对 应 的 值 函 数 的 线性 组 合 。 

为 了 避免 迭代 计算 MDP 解 ， 我 们 可 以 这 样 考虑 问题 : 对 于 一 个 行 
为 空间 很 小 的 问题 〈 比 如 网 格 世界 ， 状 态 空 间 可 以 有 很 多 ， 但 行为 空 
间 只 有 上 下 左右 四 个 动作 ) ， 最 终 的 策略 其 实 是 找到 每 个 状态 所 对 应 
的 最 优 动 作 。 用 分 类 的 思想 去 考虑 最 优 的 策略 ， 每 个 动作 看 做 一 个 类 
标签 ， 那 么 所 谓 的 策略 其 实 就 是 把 所 有 的 状态 分 成 四 类 ， 分 类 的 表示 
EHAA, RINKE RAIER 

利用 这 个 思想 ， 逆 向 强化 学 习 可 以 形式 化 为 


min TEESI 
s.t. Vi, 07 (s,,0;) +G > max 07A™ (sia) +L (sia) 
约束 中 的 {si,a;)》 为 专家 轨迹 ， 用 ”“(s;,ai) 可 以 利用 蒙特 卡 罗 的 方 
法 求解 。 而 对 于 A” (sa 去 0;) ， 则 可 以 利用 启发 的 方法 来 得 到 。 
比 如 对 于 专 家 轨 迹 


7 一 《si01)52) SN_1QN_1SNQN》 , B” (si Qi) 和 A™ (s;,a #a;) 


可 分 别 由 下 式 给 出 : 


(11.10) 


N 
Y 1<i<N, A™ (sna) = > yels) 


j=i 
ju" (s:,a + ai) = yb (s:,a;) 


综 上 ， 从 数学 形式 化 的 角度 看 ， 结 构 化 分 类 方法 (11.10) 式 和 最 
大 边际 规划 方法 (11.9) 式 有 很 多 相似 的 地 方 。 但 两 者 有 本 质 的 不 同 : 


(11.10) 式 约 束 每 个 状态 处 的 每 个 动作 ， 而 (119) 式 是 约束 一 个 
MDP 解 ;从 计算 量 来 看 ， (11.10) 式 要 小 很 多 。 

(4) 方法 四 : 神经 逆向 强化 学 习 。 

逆向 强化 学 习 要 学 习 的 是 回报 了 辆 数 ， 以 避免 人 为 设 定 回 报 函 数 的 
问题 。 但 是 ， 在 学 习 回 报 函 数 时 又 引入 了 需要 人 为 指定 的 基底 ， 即 我 
们 之 前 已 经 假设 的 回报 函数 的 形式 : 

Ro(s) 一 0 (s) 

其 中 9$(s) 是 人 为 指定 的 基底 。 对 于 大 规模 问题 ， 人 为 指定 的 基底 

表示 能 力 不 足 ， 只 能 覆盖 部 分 回报 函数 形式 ， 难 以 泛 化 到 其 他 状态 空 


al 
解决 方法 之 一 是 利用 神经 网 络 表示 回报 函数 的 基底 。 
此 时 ， 回 报 函 数 可 表示 为 r(sa) =0" f (s,a) 
神经 逆向 强化 学 习 的 整个 框架 仍然 是 最 大 边际 法 的 框架 ， 因 此 间 
是 形式 化 为 
min 1013+096” 
i=1 CTI) 


? 


s.t. QF (so ) +€°> max Q7 (sP aP) P,a) 


如 图 11.5 所 示 为 神经 逆向 强化 学 习 的 伪 代 码 。 


Input: the expert's feature expectations yr 


1: Rar wine ne rate an i initial neu ral polic cy x", represented by 
weights £ = [W ,WO ). 
2 Se ti = 1. 
3: whi lei. > 0 do 
4 Execute the current olicy m” and generate a sequence ie, 
oran -action pairs = {(sS ,ar )}. and compute p® = 


HL 
5 ‘Min — ee = ming J(@) in Eq. 
(21) s.t. Əl < 1, and let 0” be the value that attains this 
minimum. 
5 if t” < «then 
Ter rminate 
wilt 


represents the ne 
11 Se ti=i+1. 
12 ee 
Output: a series of NN weights 2”, 2, 


图 11.5 神经 逆向 强化 学 习 伪 代码 
11.3 BF RAR SS 


基于 最 大 边际 的 方法 往往 会 产生 歧义 ， 比 如 或 许 很 多 不 同 的 回报 
函数 会 导致 相同 的 专家 策略 。 在 这 种 情况 下 ， 所 学 到 的 回报 函数 往往 
具有 随机 的 偏好 。 为 了 克服 这 个 缺点 ， 学 者 们 利用 概率 模型 提出 基于 
Bx a tS SAK. 

1. BAMA FEMME ARIE 

Bx, RAT RTASRAM. WFAN, HEX 
家 阅读 吴军 老师 的 《数学 之 美 》 第 20 章 ; AFRABRZHNAH 
S, ZMARMREME MN (AitF DAA) o CRRCH, Me 
MAEENES. AEA, ARA bow, KEY, Pr 
BHDBASDANRA AAWDAAEREKES—ARE 
的 概率 都 相等 ， 所 以 取 哪 个 值 的 不 确定 性 最 大 。 

RAW: 在 学 习 概 率 模 型 时 ， 在 所 有 满足 约束 的 概率 模型 
(分 布 ) P, ARARE ERUR, RAFI RAPA 
取 的 模型 ， 没 有 对 未 知 ( 即 除了 约束 已 知 外 ) 做 任何 主观 假设 。 也 就 
是 说 ， 除 了 约束 条 件 外 ， 我 们 不 知道 任何 其 他 信息 。 

比如 ， 当 我 们 猜测 一 个 筛子 每 个 面 朝 上 的 概率 时 ， 我 们 猜 每 个 面 
朝 上 的 概率 都 是 /6， 其 实 这 个 解 就 是 最 大 燃 解 。 因 为 ， 我 们 除了 知道 


每 个 面 朝 上 的 概率 加 起 来 等 于 1 之 外 ， 并 不 知道 其 他 条 件 ， 这 时 猜测 出 
的 均匀 分 布 就 是 最 大 炳 解 。 

BA, WMS Salma, RAMREB ESTA? AL, 在 
学 徒 学 习 中 ， 我 们 在 计算 特征 期 望 的 时 候 ， 已 经 用 到 了 概率 模型 ， 我 
们 回顾 下 ， 特 征 期 望 可 定义 为 

(mr) = Ely (sl) 


给 定 m 条 专家 轨迹 时 ， 我 们 可 以 估计 专家 的 特征 期 望 为 

m 1 F 

HE 7 r DDoS) 
从 概率 模型 的 角度 建 模 逆向 强化 学 习 ， 我 们 可 以 这 样 考 虑 : FE 
一 个 潜在 的 概率 分 布 ， 在 该 概率 分 布下 ， 产 生 了 专家 轨迹 。 这 是 典型 


的 已 知 数据 、 求 模型 的 问题 。 即 已 知 专 家 轨迹 ， 求 解 产生 该 轨迹 分 布 
的 概率 模型 。 此 时 ， 已 知 条 件 为 


du POS =f (11.12) 


这 里 用 f 表示 特征 期 望 ，f 表示 专家 特征 期 望 。 在 满足 (11.12) 


AQP ANP SRED AH, HBANMEDDERT ARIE th 
ETRE ERETRIA. PUL, BAM AER DUES 
LEN, BRS, SENARBHRFRASEM, Æ 
FRANWAMRERE MAD eas DAK 

(1) 第 一 种 方法 : FRASA ete ye 。 

RA, WAAR SAS RARE RSEREAREGHEEOD 
呢 ? 我 们 下 面 介绍 基于 最 大 信息 粹 的 逆向 强化 学 习 方 法 [23] 。 

粹 最 大 ， 是 最 优 问 题 。 因 此 ， 我 们 将 该 问题 转化 成 为 标准 的 优化 
问题 ， 该 优化 问题 可 形式 化 为 


max — plogp 
s.t. ` POR=] (11.13) 


Path ¢, 
SP=1 
公式 (11.13) 是 炉 最 大 的 形式 化 表述 ， 利 用 拉 格 朗 日 乘 子 法 ， 该 
优化 问题 可 转化 为 
min L= X | plogp— > /A;(pfi— fi) -A-1 (11.14) 
G: j=1 
将 (11.14) 对 概率 进行 微分 ， 并 令 其 导数 为 0， 可 以 得 到 


OF = 
ep Si — A» =0 


Bats AB RK EA 


ep (DN l 


- (11.15) 
p= exp (1 — ào) T zZ As) 
其 中 参数 入 ; 对 应 着 回报 函数 中 的 参数 ， 该 参数 可 以 利用 最 大 似 然 
的 方法 求解 。 


一 般 而 言 ， 利 用 最 大 似 然 的 方法 对 式 (11.15) 中 的 参数 进行 求解 
时 ， 往 往 会 遇 到 未 知 的 配 分 尔 数 项 和 ， 因 此 不 能 直接 求解 。 一 种 可 行 
的 方法 是 利用 次 梯度 的 方法 ， 如 (11.16) 式 所 示 。 

VL) =} — > POAT) (11.16) 
5 


(2) 第 二 种 方法 : BFA wee Leyes 。 


在 式 (11.16) 中 需要 利用 轨迹 的 概率 已 (6) 。 该 轨迹 的 概率 可 表示 
为 


k H 
Pr(7|0,T)ædo ee 人》 a. | [T Gasna) 
i=1 t=1 


求解 该 式 的 前 提 是 系统 的 状态 转移 概率 7 了 (sti1|si, Qt) 是 已 知 的 。 
然而 ， 在 无 模型 的 强化 学 习 中 ， 该 模型 是 未 知 的 。 为 了 解决 此 问题 ， 
我 们 可 以 将 问题 建 模 为 求解 相对 业 最 大 。 下 面 我 们 介绍 基于 相对 粹 的 
逆向 强化 学 习 方 法 [26] 。 

设 @ 为 利用 均匀 分 布 策略 产生 的 轨迹 分 布 ， 要 求解 的 概率 分 布 为 
P(r), ， 问 题 可 形式 化 为 


P(T) 
min > Pm O(n) 


s.t. Vie {1, °°, k}: 


SIPMA fi SE; C4117) 


TET 


> P(r) =1 


TET 


VreT: P(r) 20 
IK, FFARR FRFSAMKKTAH, BLS RIB AB 


解 : 
P(7|0) = ED (11.18) 


SRAM RKA AHR, SARA IENA ARE 
方法 : 


VL (6) =fi— X | P(r|9) f? — oe (11.19) 


在 利用 次 梯度 的 方法 进行 参数 求解 时 ， 最 关键 的 问题 是 估计 
(11.19) 式 中 的 概率 了 (7|9) 。 由 最 大 相对 业 的 求解 可 以 得 到 该 概率 的 
计算 公式 ， 如 (11.18) 式 。 
我 们 将 Q 显 式 表述 出 来 ， 由 定义 知道 ， 它 是 在 策略 为 均匀 策略 时 得 
到 的 轨迹 分 布 ， 因 此 可 将 其 分 解 为 
Q(T) =D(r)U (T) 
1 = do (s1) HET (8,41|8:, a4) (11.20) 
— 4 
ne 
将 (11.20) RA (11.18) ， 可 以 得 到 最 大 相对 炉 解 为 
D(7T)exp (Si_10;f7 ) 
ScrD(T)exp (Di10;f7) 
这 时 ， 我 们 再 利用 重要 性 采样 对 (11.21) 进行 估计 ， 得 到 次 梯度 


P(7|0) = (11.21) 


为 


fi- >》 POF — AE; 


TET 


_ es Pore) pp 
= fi N > Daan)" Qi€i 


5 D(r)exp(Z*_16,f7) 

ee el DJ fp 加 

' N D(rjep( Sh 0f 一 l 
ok, D(r)exp (2-10; f7) 

~ N 二 re 下 D(r) (1) 


(11.21 ) 


a 1s D(r)exp(2.16; f7) fi Ws 
NITET) D(r)n(r) 
D 0; i 
A Der aie fi ) 
= 一 
a exp (DE10,f7) a iSi 


Ler, n(T) 


(3) 第 三 种 方法 ， 深 度 逆向 强化 学 习 [271。 

综 上 ， 最 大 粹 逆向 强化 学 习 虽 然 解决 了 歧义 性 问题 ， 但 在 实际 应 
用 中 逆向 强化 学 习 仍然 难以 应 用 ， 这 是 因为 : 

© 回报 函数 的 学 习 需 要 人 为 地 选择 特征 ， 对 于 很 多 实际 的 问题 ， 
特征 的 选择 是 很 困难 的 。 

@ 很 多 逆向 强化 学 习 的 子 循环 中 包含 正 向 强化 学 习 ， 而 正 向 强化 
学 习 本 身 就 是 很 难 解决 的 问题 。 

上 面 的 第 一 个 问题 涉及 回报 函数 的 表示 问题 ， 要 想 取 代 人 为 的 特 
征 设计 ， 可 以 利用 深度 神经 网 络 来 逼近 回报 函数 ， 利 用 深度 神经 网 络 
来 解决 逆向 强化 学 习 的 算法 称 为 深度 逆向 强化 学 习 算 法 ; 针对 第 二 个 
问题 ， 可 以 采用 基于 采样 的 方法 替代 正 向 强化 学 习 。 

下 面 介绍 基于 采样 的 逆向 强化 学 习 方 法 。 

CRABS UP, RAAE KE E ARM OO RD 


p(7) = zapal) (1122) 


其 中 2 一 feo (7))dr 。 前 面 两 种 方法 因为 2 无 法 直接 估计 
配 分 尔 数 ， 因 此 均 采 用 次 梯度 的 方法 。 而 基于 采样 的 逆向 强化 学 习 则 
是 利用 背景 分 布 的 样本 估计 配 分 疯 数 Z 。 背 景 分 布 是 指 用 来 采样 的 分 
布 。 


利用 (11.22) 式 ， 取 示例 轨迹 的 似 然 函 数 并 取 负 对 数 得 到 优化 目 
标 : 


1 
Lroc(0) = N > ëa lT) + logZ 


六 eal) + los xp 2 ope 


其 中 Ds。 表示 NN 个 示例 轨迹 ， 人 Dsamp RRM 个 背景 分 布 的 样本 ， 
4 表示 用 来 采样 7; 的 分 布 。 在 以 前 的 方法 中 ，4 取 均 匀 分 布 。 


逆向 强化 学 习 的 目标 是 学 到 最 好 的 参数 ， 使 得 目标 函数 (11.23) 
取 最 小 值 。 为 了 方便 计算 目标 函数 相对 于 代价 参数 0 的 梯度 ， 约 定 记 


Bs y= exp (cy (7;)) Z=% w. 
。 了 q(r;) 2 JJ oO 


目标 函数 (11.23) 式 相 对 于 参数 0 的 导数 为 


AL roc (0) _ de de 
ioe == ar aa )-F p> wg (TH) (11.24 ) 


TETRA RAM FDR AD, ARR NS 
景 分 布 9 对 于 成 功 是 最 关键 的 。 用 来 估计 配 分 六 效 的 最 优 重要 性 采样 


( 11.23 ) 


分 布 即 背景 分 布 应 该 满足 g(7)cc|exp(-cos(7))|。 但 是 ， 当 代价 函数 ce 
未 知 时 ， 设 计 一 个 单独 的 采样 函数 q(47) 是 一 件 困难 的 事情 。 一 个 不 错 
的 方法 是 自 适 应 地 修改 采样 函数 9(7) ， 使 得 该 采样 函数 在 当前 回报 函 
数 为 co(7) 的 高 回报 区 域 能 产生 更 多 的 样本 。 

如 何 得 到 这 样 的 采样 水 数 呢 ? 

我 们 在 第 10 章 介 绍 引导 策略 搜索 时 已 经 得 到 过 类 似 的 概率 分 布 ， 
即 通过 cGPS 的 方法 求 得 。 在 cGPS 算法 中 ， 通 过 将 目标 函数 设置 为 
Blco(7)] 一 H(7) ， 用 cecGPS 方法 可 以 得 到 轨迹 分 布 
dq(T)ccexp(-co(7T) ) 。 


有 了 上 面 的 知识 ， 我 们 便 可 以 介绍 应 用 了 深度 神经 网 络 和 采样 技 
术 的 逆向 强化 学 习 算法 一 一 引导 代价 逆向 学 习 算 法 。 该 算法 由 下 面 的 


算法 1 和 算法 2 组 成 。 

(1) 算法 1。 

@ 初始 化 4:(7) ， 初 始 化 的 方法 要 么 是 随机 初始 化 控制 器 要 么 来 
自 于 示例 ; 


O 迭代 计算 i 二 1 到 J ; 
© 利用 控制 策略 qi (7) 产生 轨迹 数据 集 Dua ; 

© 保存 轨迹 数据 集 到 样本 数据 集中 : Damp | Domp LJ Disa ; 
© 利用 样本 数据 集 人 Dom 来 更 新 代价 函数 ， 具 体 方法 见 算法 2; 
© 利用 轨迹 集合 和 cgps 更 新 采样 策略 gs (7) 以 便 得 到 gi +1(7) ; 


D 结束 。 

算法 1 中 的 第 5 行 ， 利 用 新 的 数据 集 更 新 代价 函数 是 通过 算法 2 实现 
的 。 

(2) RA 


CD For 迭代 k=1 到 K do: 5 
@ 从 示例 数据 集中 采样 示例 Daow。 C Daemo ; 


© MEASURES DREAD... C Damp 3 
® 将 示例 保存 到 样本 集中 : Damp Damo ) Doa ; 
© ABD somo MD ony 估计 目标 函数 的 导数 402 (9) ， 具 体 公式 
为 (11.24) ; 
aL roc 
© 利用 梯度 一 < (9) 更 新 参数 0 ; 


@ End for; 

返回 优化 的 代价 函数 的 参数 。 

我 们 还 要 处 理 的 一 个 细节 是 如 何 利用 样本 数据 估计 配 分 函数 。 如 

(11.23) 式 所 示 ， 配 分 函数 的 估计 需要 用 到 重要 性 采样 ， 尽 管 有 的 文 

献 建议 直接 抛弃 重要 性 权重 ， 但 这 会 使 得 估计 不 连续 ， 不 能 估计 得 出 
好 的 代价 函数 。 在 算法 2 中 ， 利 用 样本 数据 估计 配 分 函数 时 ， 样 本 数据 
其 实 是 从 多 个 分 布 中 提取 出 来 的 。 因 此 ， 我 们 需要 计算 一 个 融合 的 分 
布 估算 重要 性 权重 ， 即 给 每 个 样本 计算 一 个 合适 的 权重 。 

比如 ， 我 们 有 来 自 k 个 分 布 的 样本 q1(7),… ,4 (7) ， 能 在 均匀 分 
布下 构建 一 个 连续 的 期 望 估 计 器 : 
1 


a a) 
. Z5, dr (7;) 


EL f(r)] © =o 


因此 重要 性 权重 为 


1 
a= q Zas (73) (11.25) 


目标 阔 效 为 


1 
Lioc (8) = 市 2 ca (T:) + log -77 $ zepol) (11.26) 


其 中 (11.25) 式 是 计算 每 条 轨迹 的 概率 。 

至 此 ， 我 们 已 初步 了 解 了 基于 采样 的 最 大 录 逆 向 强化 学 习 方 法 。 

深度 逆向 强化 学 习 的 第 二 个 知识 点 是 利用 神经 网 络 表示 回报 涪 
数 。 但 是 神经 网 络 是 强 非 线性 表示 ， 因 此 利用 神经 网 络 表示 回报 函数 
引入 了 很 强 的 模型 复杂 性 。 为 了 解决 这 些 挑战 ， 需 要 引入 两 个 正则 方 
法 (以 前 的 正则 方法 比较 简单 ， 基 本 只 是 简单 的 代价 参数 9 的 4 范 数 或 
lz 范 数 。 对 于 高 维 的 非 线 性 代价 函数 ， 这 些 正则 技术 经 常 是 不 充分 
的 ) 。 

第 一 个 正则 化 是 惩罚 状态 的 二 阶 导数 : 


gr = X [elit) —¢0(@s)) — (lt) —eo(@))]? (27) 


该 项 碱 小 了 高 频 震 荡 ， 使 代价 更 容易 优化 。 
第 二 个 正则 化 更 适合 情景 任务 : 
Gmono(T) = X [max (0, co (a) — co (a-1) —1)] | (11.28) 


LET 


11.4 习题 


1. 逆 向 强化 学 习 包 括 哪些 方法 。 
2. 利 用 逆向 强化 学 习 解 决 机 器 人 路 径 规 划 问 题 。 


12 AGT EA Bee 


本 章 主要 介绍 组 合 策略 梯度 和 值 函数 方法 的 理论 基础 。[28] 

我 们 知道 ， 强 化 学 习 算法 一 般 可 分 为 值 函数 的 方法 和 直接 策略 搜 
索 的 方法 。 它 们 之 间 有 什么 关系 呢 ? 

根据 策略 梯度 的 理论 ， 策 略 梯度 可 表示 为 


Vod (7) = EQ" (s,a) Vologr(s,a) Cia) 


从 (12.1) 式 中 ， 我 们 无 法 看 出 值 函 数 和 策略 之 间 有 什么 直接 联 
系 。 为 了 建立 它们 之 间 的 联系 ， 我 们 需要 再 了 解 两 个 知识 点 : 策略 梯 
ERRENKA REDENS Ro 

(1) REREN ENE. 

为 防止 策略 变 成 确定 性 策略 ， 失 去 探索 性 ， 实 践 中 常用 的 一 个 技 
巧 是 在 策略 梯度 上 增加 一 个 烂 正 则 化 项 ， 即 


A0x EQ" (s,a) Vologn(s,a) +a EVH" (s) (12.2) 


Hp H"(s)=-) rls,a)logr(s,a), pe REM RO REE, 


MEME AMEA. (12.2) 式 第 二 项 的 意思 是 让 参数 朝 着 不 确定 性 
大 的 方向 更 新 ;第 一 项 是 向 着 值 阔 数 更 大 的 方向 更 新 。 第 二 项 的 系数 
是 正则 惩罚 参数 ， 该 参数 在 值 族 效 的 收 你 中 有 重要 的 作用 。 

(2) 贝尔 曼 方 程 的 不 动 点 。 


贝尔 曼 操 作 符 7 定义 为 了 OS) = E (r(s,a) 二 YQ(s"b)) 
该 操作 符 为 压缩 映射 ， 该 压缩 映射 最 后 会 收敛 到 一 个 不 动 点 。 


综 上 ， 在 不 动 点 处 行为 值 水 数 的 参数 0 aE CA A E 
将 不 会 再 更 新 。 


pies) = BQ*(s,a)Vologr(s,a) +aEVoH"(s) ， 同 时 随 


机 策略 本 身 需要 满足 概率 为 1 的 约束 条 件 ， 即 9(9) = 2 ,T(sa) =1 


， 将 约束 条 件 代 入 不 动 点 处 ， 正 则 化 的 梯度 为 零 可 以 得 到 
FO- 》 和 NVog,(m) 


= EQ" (s,a)Vylogr(s,a) — a EV, Y z(s,a)logz(s,a) 一 i À Vo ce ™(s,a) 


a a 


= EQ" (s,a)Vplogr(s,a) -aE ) 'Vyn(s,a)logn(s,a) -aE Y (sa) Vologr(s,0) 一 Sod) Vir(sg) 


™(s,a) 


_ por Vom (s,a) Vom (s,a) 
= EQ (s,a) Vologm(s,a) -aE (x(a) logm(s,a) -aE $ x(6,0)Vologr (0) 一 2 ro roar 
= EQ" (s,a)Vplogr(s,a) —aElogr(s,a)Vologr(s,a) — a E Velogr(s,a) — A E Vilogr (s,a) 


= E (Q7 (s,a) —alogr(s,a) —a — à) Vilogr (s,a) 


(12.3) 
其 中 第 3 个 等 式 到 第 4 个 等 式 用 到 了 期 望 的 定义 2 76,0) 一 已。 
由 分 析 知 道 ， 在 不 动 点 处 有 


f(0)— NCA Vog (m) = E (Q7 (s,a) —alogr(s,a) —a—A)Velogr(s,a) =0 


由 于 Vou ar(s,a) 二 10) -so EREK 
Q” (s,a) — alogr(s,a) —c=0 (12.4) 
其 中 。 
(12.4) 式 展 示 了 行为 值 函 数 &7(s,a) 和 策略 x(s,a) 之 间 的 关 


系 ， 为 了 消去 常数 c ， 我 们 利用 策略 x(s,a) 在 状态 s 处 采样 ， 并 对 该 状 
态 处 的 动作 a 进行 积分 ， 得 到 


>》 rr(sa)Qr(sa) —a) ‘n(s,a)logr(s,a)—) 7(s,a)c(s) =) (795) 


其 中 : 
> _r(s,a)Q"(s,a) =V"(s) 


a 


一 >. 7(s,a)logn(s,a) =H" (s) 


a 


(12.5) REX 


c, = aH" (s) +V" (s) (i26) 
将 (12.6) RRE (12.4) 式 ， 可 以 得 到 
Q” (s,a) =a(logr(s,a) + H"(s)) +V” (s) (12.7) 
ak m (s,a) =exp(A*(s,a)/a — H” (s)) (12.8 ) 
(12.7) 式 和 (12.8) 式 展示 了 动作 值 函 数 Q7(s,o) 与 策略 7(s,a) 


之 间 的 关系 。 
大 家 可 能 要 问 ， 知 道 两 者 之 间 的 关系 有 什么 用 呢 ? 
答案 是 : 我 们 可 以 利用 当前 策略 来 估计 动作 值 刺 数 ， 详 述 如 下 。 
FA (12.7) 式 ， 我 们 可 以 给 出 逼近 动作 值 轴 数 的 方法 : 
Q” (s,a) = A" (s,a) 十 Yr(s) =a(logr(s,a) + H*(s)) +V" (8) (12.9) 


MAY RB Se EU LA RE BMA (12.2) R, 在 
(12.3) 式 的 推导 中 得 到 


EQ” (s,a)Vologr(s,a) +a EVH" (s) 
= E (Q"(s,a) — alogr (s,a) — a) Vo logn (s,a) 


有 常数 偏差 时 ， 更 新 不 变 ， 因 此 (12.2) 式 可 以 写 为 


Ax E (Q*(s,a) — Q" (s,a) ) Vologn(s, a) (12.10) 


下 面 从 优化 的 角度 理解 不 动 点 处 值 函数 和 策略 之 间 的 关系 。 
考虑 优化 问题 : 


minimize E,,(q(s,a) —alogz(s,a))” 


st. X a(s,a)=1, ses (12.11) 
极 值 点 处 的 条 件 为 


E (q(s,a) — alogr(s,a) + c.) Vologr (s,a) 一 0 


若 4(s,4) =Q"(s,a) ， 则 优化 问题 得 到 的 等 式 和 根据 不 动 点 得 到 
的 等 式 相同 。 因 此 ， (12.11) 式 可 以 这 样 解释 : MLE RE 
时 ， 在 不 动 点 处 ， 动 作 值 滔 数 可 以 看 成 是 策略 对 数 的 回归 。 

在 介绍 组 合 策略 梯度 和 值 函 数 算法 (PGQL) 之 前 ， 还 需要 解决 的 
问题 是 当 采 用 策略 (12.8) 式 时 ， 动 作 值 函 数 是 否 会 收敛 到 最 优 值 ? 

ZR IC EOF RS RES hes aT Ro 下 降 而 下 


证 明 
由 (12.8) 式 , 策略 x(s,a) 可 以 写成 


__exp(Q™(s,0)/a) exp(Q™(s,0)/0) _ 
Yexp(Q™(s,b)/a) ` exp (max.Q™ (s,c)/a) (12.12 ) 


Ta (8,a) 


KT 为 贪 林 变换 ， 则 贝尔 曼 残 差 为 7 Q (s,a) —Q™(s,a) 。 


0<T'Q™(s,a) —Q™(s,a) 
一 To (s,a) _ T™Q” (s,a) 


= P, max.Q° (s’,c) 一 >t (s’,b)Q”™ (D) ( 12.13 ) 


BAD Ta (8’,b) (max. Q”(s’,c) —Q™ (s D) 


将 (12.12) BEA (12.13) 式 ， 缩 放 不 等 式 ， 得 到 
TQ™ (6,0) =Q% (8,0) < E ) exp ( (Q7 (8) —Q°(s',6")) fa) (maxeQ™ (se) -Q (8b) 


设 到 数 Ja (x) = LExXp (-2/a) 》 令 
r=max.Q™ (5s5c) —Q™(s’,b) ， 则 不 等 式 变 为 
TQ” (s,a) —Q™ (sa) S Es > fa (2) (12.14) 


根据 函数 大 (z) AMR falt) < fala) Saet, ATER 
(12.14) BA 
TQ"™(s,a) —Q™(s,a) <|Alae™ (12153) 

由 此 我 们 可 以 看 到 ， 贝 尔 曼 残 差 随 着 Q 的 降低 而 收敛 到 0。 

通过 上 面 的 分 析 ， 我 们 知道 采用 策略 (12.8) 式 时 贝尔 曼 残 差 收 
化 ， 而 Qlearning 的 目标 是 减 小 贝尔 曼 残 差 。 因 此 可 以 将 炉 正 则 化 的 策 
略 梯 度 方法 和 Qlearning 的 方法 结合 运用 ， 这 就 是 PGQL 算 法 。 

PGQL 学 习 算 法 是 基于 值 了 图 数 的 估计 ， 即 (12.9) 7, AATIRIE 
则 化 的 策略 梯度 更 新 和 Qlearning 的 方法 。 

其 中 Qlearning 的 更 新 是 为 了 减 小 贝尔 曼 残 差 ， 其 更 新 公式 为 


Abx E (7°Q"(s,a) — Q” (s,a) )Vologr (s,a), 
Awx E (7°Q"(s,a) —Q"(s,a))V..V(s) 
FA (12.10) HESA ENKA RE SA 
AIx E (Q"(s,a) — Q"(s,a) )Vologr(s,a), 
Awx E (Q*(s,a) — Q"(s,a))VuV(s) 
PGQL 方 法 是 将 两 种 更 新 进行 加 权 组 合 ， 即 
Adx(1—n) E (Q" —Q" )Vologa +E (T°Q" — Q" )Vologr， 


Awe(1—n) E (Q* —Q")V.V(s) +E (T°Q" — Q") VaV 


13 值 迭代 网 络 


本 章 分 为 三 个 小 节 ， 其 中 13.1 节 探讨 为 什么 要 提出 值 迭 代 网 络 ， 
13.2 节 阐述 值 和 迭代 网 络 模型 。 


13.1 为 什么 要 提出 值 和 迭代 网 络 


众所周知 ， 深 度 学 习 与 强化 学 习 算 法 结合 所 产生 的 深度 强化 学 习 
算法 在 很 多 领域 取得 了 突破 性 进展 。 最 早 引 起 大 家 注意 的 是 DeepMind 
团队 利用 DQN 算法 挑战 雅 达 利 游戏 ， 得 分 竟然 超过 了 专业 人 类 玩家 

(这 成 为 Google 直 接 以 重金 收购 DeepMind 团 队 的 原因 之 一 ) ， 该 成 果 
2015 年 在 Nature 发 表 ， 由 此 学 者 们 开始 纷纷 “ 掉 入 “深度 强化 学 习 的 “大 
Ho 我 们 下 面 简单 介绍 下 DQN。 

我 们 可 以 从 以 下 几 个 角度 理解 DQN 算 法 。 

(1) 第 一 个 角度 : DQN 是 一 个 深度 神经 网 络 ， 如 图 13.1 所 示 。 
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113.1 DQN 网 络 


直观 看 来 ，DQN 是 一 个 深度 神经 网 络 ， 更 确切 地 说 ， 它 是 一 个 由 3 
个 卷 积 层 和 2 个 全 连接 层 组 成 的 深度 神经 网 络 。 它 的 输入 是 图 像 ， 即 游 
戏 当 前 的 画面 ; 输出 是 18 个 动作 的 概率 分 布 (游戏 手柄 18 个 动作 的 概 
率 值 ) 。 

(2) 第 二 个 角度 : DQN 的 训练 方法 是 强化 学 习 。 

DQN 是 一 个 深度 神经 网 络 ， 我 们 需要 训练 这 个 网 络 ， 以 达到 游戏 
通关 的 目的 。 何 为 训练 ? 就 是 调整 神经 网 络 的 权 值 。 如 何 调整 神经 网 
络 的 权 值 呢 ? 方法 是 强化 学 习 方 法 。 但 是 ， 强 化 学 习 方 法 并 非 是 调整 
网 络 权 值 的 唯一 方法 。 如 果 有 足够 的 数据 ， 我 们 完全 可 以 利用 监督 学 
习 或 者 模仿 学 习 等 方法 学 习 该 网 络 的 权 值 。 所 以 ， 从 训练 神经 网 络 的 
角度 来 看 ， 强 化 学 习 算法 不 过 是 调整 神经 网 络 权 值 的 一 种 方法 。 运 用 
强化 学 习 方 法 调整 DQN 网 络 的 权 值 可 以 参见 第 6 章 。 

事实 上 ， 深 度 神经 网 络 是 强化 学 习 算法 一 个 非常 重要 的 组 成 因 
素 : 深度 强化 学 习 算法 本 质 上 就 是 利用 强化 学 习 的 方法 调 优 深度 神经 
网 络 。 

如 果 深 度 神经 网 络 设计 得 很 差 ， 就 算 强 化 学 习 算 法 再 强大 ， 也 无 
法 实现 很 好 的 效果 。 瑟 妇 难为 无 米 之 炊 ， 在 深度 强化 学 习 算法 中 ， 深 
度 神经 网 络 就 是 米 、 就 是 食材 ， 而 强化 学 习 算 法 则 是 巧 妇 、 是 厨 艺 。 
只 有 在 一 个 足够 好 的 深度 神经 网 络 的 基础 上 ， 强 化 学 习 算法 才能 将 这 
个 网 络 调 成 一 个 效果 很 好 的 网 络 。 

那么 问题 来 了 ， 什 么 是 一 个 好 的 神经 网 络 ? DQN 是 好 的 神经 网 络 
吗 ? 

按理 说 ，DQN 网 络 取得 了 很 好 的 效果 ， 应 该 是 一 个 好 的 神经 网 
络 。 但 是 ，Aviv Tama 等 发 现 它 其 实 并 不 是 一 个 好 的 网 络 ， 因 为 已 经 
调 优 的 深度 神经 网 络 很 难 泛 化 到 其 他 的 游戏 中 。 也 就 是 说 ， 该 网 络 并 
没有 学 到 本 质 。 

为 什么 呢 ? 这 主要 是 由 网 络 结构 决定 的 ， 下 面 我 们 做 些 简单 分 
析 。 

DQN 的 网 络 结构 是 前 向 的 多 层 神经 网 络 ， 这 类 网 络 结构 的 特点 是 
输入 是 状态 ， 输 出 是 动作 ， 也 就 是 策略 。 它 最 常 应 用 在 识别 领域 。 在 
现 有 的 深度 强化 学 习 领 域 ， 大 部 分 的 研究 都 是 直接 用 这 种 网 络 结构 表 
示 策 略 。Tamar 等 称 ， 这 种 策略 被 称 为 reactive policy 〈 反 应 式 策 略 ) 。 


从 字面 意思 很 容易 理解 ， 即 给 出 一 个 状态 ， 得 到 一 个 反应 动作 。 从 强 
化 学 习 要 解决 的 任务 来 看 ， 反 应 式 策略 并 非 好 策略 。 强 化 学 习 通常 要 
解决 的 马尔 科 夫 决策 问题 本 质 上 是 序列 决策 问题 ， 即 当前 的 决策 需要 
考虑 后 续 的 决策 ， 以 使 整个 决策 总 体 最 优 。 很 显然 ， 反 应 式 策略 并 不 
能 表达 后 续 策略 对 当前 策略 的 影响 。 从 这 个 意义 上 来 说 ， 反 应 式 策略 
并 不 是 一 个 好 的 网 络 结构 。 

那么 什么 样 的 策略 网 络 是 好 的 策略 网 络 呢 ? Tamar 等 作者 给 出 的 答 
案 是 : 具有 规划 能 力 的 策略 网 络 是 好 的 策略 网 络 。 

所 谓 规 划 就 是 考虑 后 续 的 回报 。 遗 憾 的 是 ， 目 前 大 部 分 强化 学 习 
所 用 的 深度 网 络 都 是 反应 式 网 络 ， 缺 少 显 式 的 规划 计算 。 不 过 即便 如 
此 ， 仍 然 有 很 多 很 成 功 的 反应 式 网 络 。 细 细 思 考 ， 我 们 会 发 现 这 些 网 
络 的 成 功 其 实 要 归功 于 训练 该 网 络 的 方法 一 一 强化 学 习 训练 方法 。 强 
化 学 习 的 训练 方法 在 训练 网 络 时 《调整 网 络 参数 时 ) 考虑 了 规划 问 
题 。 不 过 ， 由 于 网 络 本 身 没 有 规划 模块 ， 因 此 在 被 运用 到 新 的 环境 
时 ， 大 部 分 都 需要 重新 训练 ， 也 就 是 泛 化 能 力 很 差 。 

假如 训练 策略 本 身 就 有 规划 模块 ， 一 旦 规划 模块 被 训练 好 ， 就 算 
换 了 新 的 环境 ， 针 对 类 似 的 任务 ， 具 有 规划 模块 的 策略 网 络 便 可 以 利 
用 已 经 训练 好 的 规划 模块 规划 新 的 任务 ， 泛 化 能 力 很 强 。 另 一 方面 ， 
对 于 具有 规划 模块 的 策略 网 络 ， 训 练 方法 就 可 以 更 灵活 了 ， 不 必 像 以 
前 那样 依赖 强化 学 习 算 法 。 此 时 ， 我 们 便 可 以 利用 成 熟 的 监督 学 习 方 
法 和 模仿 学 习 方 法 。 当 然 ， 在 没有 数据 标签 时 仍然 要 利用 强化 学 习 的 
训练 方法 。 

为 了 理解 为 什么 规划 是 策略 中 重要 的 组 成 成 分 ，Tamar 等 举 了 一 个 
网 格 世界 中 导航 的 例子 ， 如 图 13.2 所 示 。 在 该 例 中 ， 智 能 体能 够 看 到 整 
个 网 格 地 图 ， 知 道 目 标点 的 位 置 ， 其 任务 是 从 起 始点 无 障碍 地 达到 目 
标 位 置 。 人 们 所 希望 的 是 ， 在 训练 完 一 个 场景 (如 图 13.2 左 边 的 场景 
后 ， 在 另 一 个 场景 〈 如 图 13.2 右 边 的 场景 ) 该 策略 依然 有 效 。 遗 憾 的 
是 ， 当 采用 基于 CNN 的 神经 网 络 策略 时 ， 无 法 实现 泛 化 。Tamar 等 分 
析 得 出 的 结论 是 该 网 络 并 没有 理解 行为 的 目标 指引 本 质 。 


图 13.2 网 格 世界 导航 问题 ， 目 标 是 从 起 始点 无 障碍 地 到 达 目标 位 置 
一 言 概 之 ， 具 有 规划 计算 的 网 络 策略 是 好 的 策略 ， 即 能 入 了 规划 
模块 的 策略 网 络 是 好 网 络 。 接 下 来 的 问题 是 : MRAM? 


13.2 值 迭 代 网 络 
最 常用 的 规划 算法 是 值 迭 代 规 划算 法 ， 第 3 章 已 经 前 述 了 动态 规划 
的 思想 。 规 划 实 际 缠 含 的 是 一 个 优化 问题 。 我 们 在 这 里 所 说 的 规划 是 
基于 贝尔 曼 优化 原理 的 ， 即 
v= max Ri +7 ) Piv Ce’) (13.1) 


基于 该 原理 ， 具 体 的 算法 实现 用 的 是 迭代 更 新 ， 也 就 是 值 迭代 算 
法 。 为 了 表述 方便 ,我们 再 回顾 一 下 值 迭代 的 过 程 ， 如 图 13.3 所 示 。 


中 输入 : 状态 转移 概率 PBs, 回报 水 数 Rs ， 折 扣 因 子 y 
MC AR:v(s)=0 初始 化 策略 ro 


[2] Repeat ]=0.1.... 
[3] for every s do 


几 Msa(s) = maxR$ + y > Pvils) 
SIES 
[5] Until vı = vi 


[6] 输出 : (s) = argmaxR +y 》 PSu(s") 
a 


图 13.3 值 迭 代 算 法 
那么 ， 如 何 将 该 迭代 算法 能 入 到 一 个 网 络 中 呢 ? 由 于 值 迭代 的 计 
算 过 程 与 CNN 网 络 的 传播 过 程 很 相似 ， 我 们 可 以 利用 CNN 网 络 来 表示 
值 和 迭代 过 程 。 
我 们 先 看 一 下 值 迭 代 计 算 过 程 与 CNN 网 络 传播 过 程 的 相似 之 处 。 
我 们 看 如 图 13.3 所 示 的 值 迭 代 算 法 。 
在 值 迭 代 算 法 中 ， 最 关键 的 公式 是 迭代 公式 : 


U141(s) = max Re+7y > Puis’) (13.2) 
我 们 可 以 将 迭代 公式 分 成 两 个 步骤 : 
第 一 步 遍历 动作 a， 得 到 不 同 动作 a 所 对 应 的 值 函 数 更 新 ， 即 : 


Ui41(8,a) =R? +7% ,Pewv(s’) (13.3) 


第 二 步 遍 历 动作 a， 找 到 最 大 的 w+ri(s,a) : 
U141(8) 一 max U1+1(8,a) (13.4) 


AZSCNNA FWA, ARAZA IERA (13.3) 相 
当 于 CNN 中 的 卷 积 操作 ， (13.4) 式 相当 于 池 化 操作 。 从 这 个 意义 上 
讲 ， 可 以 将 值 迭 代 的 过 程 用 CNN 网 络 散 入 到 策略 网 络 中 ， 使 策略 网 络 


RAMÈNE. MSCNNEREANE, EAER HITER 
操作 的 时 候 ， 偏 移 量 及 ;对 应 着 每 个 像素 的 偏 移 量 ， 从 CNN 的 角度 来 
看 ， 状 态 转 移 概率 Ps 可 以 看 成 是 卷 积 核 ， 回 报 可 以 看 成 是 每 个 点 对 


应 的 偏 移 。 卷 积 核 的 个 数 等 于 动作 空间 的 维 数 。 值 迭代 网 络 如 图 13.4 所 
示 。 


VI Module 


New Value 


| 


K recurrence 


图 13.4 值 迭 代 网 络 
为 了 完成 值 迭代 网 络 ， 还 需要 处 理 两 个 部 分 ， 即 值 迭代 模块 的 输 
入 和 输出 (如 图 13.4 GARR AV ) 。 值 迭代 模块 的 输入 解决 如 何 


把 观测 值 经 过 加 工 变 成 值 迭 代 模 块 的 输入 ;， 值 迭代 模块 的 输出 解决 如 
(AGIA ACS El AY (BE ae Bl SRB ZS A 

(1) 值 迭代 模块 的 输入 。 

值 迭代 模块 的 输入 过 程 如 图 13.5 所 示 。 


图 13.5 值 迭 代 模 块 的 输入 
以 网 格 世界 导航 为 例 ， 输 入 的 是 对 系统 的 观测 ， 像 当前 地 图 、 目 
标点 的 位 置 ， 智 能 体 当 前 的 位 置 。 论 文 指出 ， 观 测 可 以 通过 简单 的 映 
射 将 图 像 映 射 成 回报 图 ， 比 如 目标 位 置 对 应 着 高 回报 ， 障 碍 物 的 区 域 
对 应 着 负 回 报 。 该 过 程 可 以 利用 一 层 卷 积 操作 来 实现 。 
(2) (ATA AERA. 
(EIA TUR ah BY BRA WE 13.6PA To 


< 


oo 


图 13.6 值 迭 代 模 块 输出 的 能 入 过 程 
通过 值 和 迭代 网 络 (这 里 用 CNN 网 络 来 实现 ) RSET Ri 
Xo PAF ARIE? 从 第 3 章 可 知 ， 在 已 知 最 优 值 永 数 的 
情况 下 ， 最 优 策略 为 


T (5) 一 arg max, R(s,a) +y% P(ss,a)V"(s’) 


注意 状态 s 处 的 策略 只 和 它 相 邻 的 邻 域 的 值 函 数 Y_ 〈s?) 有 关 ， 因 此 
在 设计 状态 s 处 的 值 函数 时 ， 我 们 只 用 了 最 优 值 函 数 Y ”的 一 个 子 区 
域 。 

在 深度 学 习 领 域 ， 当 给 定 的 标签 只 与 输入 特征 的 一 个 局 部 相关 
时 ， 我 们 称 之 为 注意 力 (attention) 机 制 ， 从 上 面 已 知 最 优 值 函数 求解 
最 优 策略 的 公式 我 们 可 以 看 到 ， 状 态 s 处 的 最 优 策略 只 与 状态 s 局 部 的 值 
疯 数 有 关 ， 因 此 值 迭 代 网 络 在 值 迭代 模块 后 跟 了 一 个 attention 网 络 ， 最 
简单 的 attention 机 制 就 是 取 当 前 状态 的 邻 域 。 

值 迭代 网 络 的 训练 既 可 以 采用 模仿 学 习 (IL) 方法 也 可 以 采用 强 
化 学 习 (RL) 方法 。 模 仿 学 习 就 是 利用 专家 数据 对 网 络 参 数 进行 训 
练 。 针 对 网 格 世界 的 导航 任务 ， 专 家 数据 可 以 来 自传 统 的 规划 算法 ， 
比如 Dijkstra 算 法 或 A* 算 法 。 


14 基于 模型 的 强化 学 习 方 法 : PILCO 及 其 扩 
展 


14.1 概述 


本 章 继续 向 大 家 介绍 基于 模型 的 强化 学 习 ， 第 3 章 和 第 10 章 已 介绍 
部 分 基于 模型 的 方法 ， 其 他 章节 介绍 的 均 是 无 模型 的 强化 学 习 方 法 。 
我 们 简单 比较 一 下 基于 模型 和 基于 无 模型 两 种 方法 的 优 缺 点 。 

1. 基 于 无 模型 的 强化 学 习 方法 

无 模型 强化 学 习 方法 最 大 的 优势 是 通用 : 一 种 算法 可 以 适用 于 很 
多 领域 。 由 于 无 需 建立 模型 ， 智 能 体 所 有 的 决策 都 是 通过 与 环境 交互 
得 到 的 ， 所 以 这 种 方法 适用 于 很 难 建 模 或 者 根本 无 法 建 模 的 场景 ， 如 
游戏 、 自 然 语言 处 理 等 。 

同样 ， 由 于 没有 模型 ， 智 能 体 就 需要 不 断 地 与 环境 交互 、 探 索 环 
境 ， 需 要 大 量 试销 。 这 也 导致 无 模型 强化 学 习 算 法 的 最 大 缺点 : 数据 
效率 不 高 。 这 种 算法 往往 需要 与 环境 交互 几 十 万 次 、 几 百 万 次 甚至 是 
千 万 次 。 从 这 个 意义 上 来 说 ， 无 模型 强化 学 习 算法 类 似 于 暴力 搜索 
只 不 过 它 是 有 智 意 的 暴力 搜索 。 此 外 ， 基 于 无 模型 的 强化 学 习 算 
法 并 不 具有 泛 化 能 力 ， 尤 其 是 当 环 境 和 任务 发 生变 化 后 ， 智 能 体 需 要 
重新 探索 。 

2. 基 于 模型 的 强化 学 习 方 法 

基于 模型 的 强化 学 习 方 法 通常 是 指 先 从 数据 中 学 习 模 型 ， 再 基于 
模型 来 优化 策略 。 在 模型 完全 已 知 的 情况 下 ， 这 就 转化 成 最 优 控制 问 
题 。 从 数据 中 学 习 模 型 的 本 质 其 实 是 提高 数据 的 利用 效率 。 为 什么 这 
么 说 ? 因为 利用 已 有 的 数据 学 到 系统 的 模型 后 ， 利 用 该 模型 就 可 以 预 
测 其 他 未 知 状态 处 的 值 。 而 无 模型 的 强化 学 习 只 能 依靠 尝试 ， 与 环境 
交互 得 到 其 他 未 知 状态 的 值 。 相 比 之 下 ， 基 于 模型 的 强化 学 习 方 法 并 
不 需要 尝试 太 多 次 ， 往 往 具 有 比较 强 的 泛 化 能 力 ， 能 够 极 大 提高 数据 
利用 率 。 因 为 完成 训练 后 ， 智 能 体 便 学 到 了 一 个 比较 好 的 描述 系统 的 
模型 ， 即 便 外 界 环境 变化 ， 大 部 分 情况 下 系统 自身 的 模型 是 不 变 的 ， 
相当 于 智能 体 学 到 了 一 些 通用 的 东西 《 即 系统 本 身 的 模型 ) ， 在 新 的 


环境 里 ， 智 能 体 可 以 依靠 学 到 的 模型 去 做 推理 。 但 是 ， 由 于 很 多 情况 
下 系统 无 法 建 模 ， 如 游戏 或 者 自然 语言 处 理 等 ， 这 就 限制 了 基于 模型 
的 强化 学 习 算 法 的 使 用 。 但 是 在 有 模型 的 系统 中 (比如 机 器 人 系统 的 
运动 ) ， 可 以 适用 此 方法 。 机 器 人 系统 的 运动 符合 最 基本 的 物理 定 
律 ， 可 以 利用 发 展 起 来 的 刚体 、 流 体 等 动力 学 原理 对 这 些 系统 建 模 。 
所 以 ， 这 类 问题 比较 适合 基于 模型 的 强化 学 习 方 法 (当然 也 可 以 用 无 
模型 的 强化 学 习 方 法 如 DDPG 解 决 ) 。 

基于 模型 的 强化 学 习 方 法 遇 到 的 最 大 的 挑战 是 模型 误差 。 基 于 模 
型 的 强化 学 习 方 法 的 一 个 缺点 是 通过 数据 学 习 的 模型 存在 模型 误差 。 
尤其 是 在 刚 开始 训练 、 数 据 量 很 少 的 情况 下 ， 所 学 到 的 模型 必定 不 准 
确 。 运 用 不 准确 的 模型 预测 便 会 产生 更 大 的 误差 。 针 对 此 类 问题 ， 业 
界 提出 了 PILCO (probabilistic inference for learning control) 算法 ， 它 把 
模型 误差 纳入 考虑 学 围 ， 一 般 只 需要 训练 几 次 到 几 十 次 便 可 以 成 功 实 
现 对 单 摆 等 典型 非 线性 系统 的 稳定 性 控制 ， 而 对 于 同样 的 问题 ， 基 于 
无 模型 的 强化 学 习 则 需要 训练 上 万 次 。 

PILCO 的 成 功 天 键 在 于 : 它 解决 模型 偏差 的 方法 不 是 集中 于 一 个 
单独 的 动力 学 模型 ， 而 是 建立 了 概率 动力 学 模型 ， 即 动力 学 模型 上 的 
分 布 。 即 PILCO 建立 的 模型 并 不 是 具体 的 某 个 确定 性 函数 ， 而 是 建立 
一 个 可 以 描述 一 切 可 行 模型 《所 有 通过 已 知 训练 数据 的 模型 ) 上 的 概 
率 分 布 。 该 概率 模型 有 两 个 目的 : 

第 一 ， 它 表达 和 表示 了 学 习 到 的 动力 学 模型 的 不 确定 性 ; 

第 二 ， 模 型 不 确定 性 被 集成 到 长 期 的 规划 和 决策 中 。 

下 面 我 们 详细 介绍 PILCO 算 法 。 


14.2 PILCO 


1.PILCO 算 法 的 推导 
如 图 14.1 所 示 为 PILCO 算 法 的 层次 结构 图 。 


top layer: policy optimization /learning T 
intermediate layer: (approximate) inference y" 
bottom layer: learning the transition dynamics f 


图 14.1 PILCO 算 法 
从 图 中 可 以 看 出 ， 该 算法 可 以 分 为 以 下 三 层 。 
底层 : 学 习 一 个 状态 转移 的 概率 模型 ; 


中 间 层 : 利用 状态 转移 的 概率 模型 和 策略 T_ ， 预 测 在 策略 7 F, 
后 续 的 状态 分 布 p(z0),p(zD),…,p(zr) ， 利用 


Vra) = >> [clu pe NRE; 


顶层 : 在 顶层 利用 基于 梯度 的 方法 对 策略 7 的 参数 进行 更 新 。 


如 图 14.2 所 示 为 PILCO 算 法 的 伪 代 码 。 
Algorithm 1 PILco 


1: set policy to random 
2: loop 

3: execute policy 

4 record collected experience 

5 learn probabilistic dynamics model 

6 loop 

7 simulate system with policy 7 

8 compute expected long-term cost V7, eq. (3.2) 
9 improve policy 

10 end loop 

1: end loop 


图 14.2 PILCO 算 法 伪 代 码 
下 面 我 们 对 PILCO 的 每 一 层 做 详细 的 推导 。 
(1) 底层 : 学 习 转 移 概 率 模型 。 


> policy initialization 
> interaction 


> bottom layer 

> policy search 

> intermediate layer 
> policy evaluation 
> top layer 


PILCO 算 法 用 的 概率 模型 是 高 斯 过 程 模 型 。 假 设 动力 学 系统 可 以 
由 下 列 公式 描述 : 
Ly 一 了 (2 


PILCO 的 概率 模型 并 不 直接 对 该 模型 建 模 ， 而 是 引入 一 个 差分 变 


A= ti — tı 1 HE (14.1) 
A: 符合 高 斯 分 布 ， 则 zt 也 符合 高 斯 分 布 : 
p(w lm Wea) =N (zt £a) (14.2) 
其 中 均值 : 
hi = 21-1 HE; [A] (14.3) 


So 二 (zu) ，PILCO 动 力学 概率 模型 学 习 的 是 输入 zx 和 输出 之 


间 的 拟 合 天 系 。 与 直接 学 习 了 数值 相 比 ， 学 习 差分 更 有 优势 。 因 为 相 
ERRAR, CEERD, FJÆR Ar HUF SDAA 
度 。 


训练 数据 集 为 D: = {X:= [in] y: = [Ai An)” } 
，A(z) =f(z) +e ， 定 义 /(z) 之 间 的 协 方差 矩阵 为 核 函 数 : 


cov(F(2),s(2”)) =a?exp(-5 (E-E) aE- 2) 


则 输出 之 间 的 协 方差 矩阵 为 


cov(A(x),A(2’)) =cov (f(z) +e,f(z’) +e) 
=cov(f(z) f(z’)) 十 cov(e,e) 
=k(2,2’) +021 
斯 过 & mM M 是 4 定 训 AAE 
{X:= [z]y 二 [AnA] WRAT, RE 
在 测试 点 x* 时 的 预测 值 人 (zx:) 。 

高 斯 过 程 回 归 是 在 函数 空间 上 建 模 ， 利 用 后 验 公 式 对 预测 值 进 行 
推理 得 到 。 用 在 此 处 即 为 P(A (zx)|,y) 。 


根据 已 知 条 件 ， 我 们 可 以 得 到 输入 y 和 预测 值 A(z*) 的 联合 概率 


分 布 。 由 于 输入 都 是 高 斯 分 布 ， 因 此 其 联合 概率 分 布 也 是 高 斯 的 ;又 
由 于 输入 值 没 有 任何 经 验 ， 因 此 输入 数据 的 先 验 均值 为 零 ， 输 出 的 均 
值 也 为 = o = 


ke: = (Xa), beer =h(a-,0-), 8: = (K +021) ty, Ky=k( 2,25) 
， 则 联合 高 斯 分 布 为 


loll E w 


联合 概率 分 布 的 协 方差 矩阵 可 分 解 为 


= |= | | 0 | 
ki kes eee 1 ka — kt (K +021) the 


(K +071) P 


il 


D: 


0 1 
因此 协 方差 矩阵 的 逆 为 


a | = oe 0 
ki krx 7 0 1 0 (kee — k? (K +02) the) 


el 
-k (K+02)7 1 
根据 高 斯 分 布 公式 有 


| 


Al l ke 1k, | wa 0 | 


A(z) 0 (ka — k? (K +021) tke) 


“la 
k ee 4 J ji 


= (A(x) —k? (K +021) +y)" (kee — k? (K +021) "k) Y 
(A(z — k? (K +021) ty) 
由 联合 概率 分 布 公式 : p(y, 人 A(z:)) =p(A(a)|y) p(y) 


根据 高 斯 分 布 和 联合 概率 分 布 的 对 应 关系 ， 我 们 得 到 后 验 概率 分 
布 服从 如 下 高 斯 分 布 : 


p(A(z| 从 -NO (K +021) y, ke — k? (K +021) ke) 
BN 
my (+) = EB, [As] =k? (K +021) y =k? B 
(14.4) 
o? (A+) = VAT 7 [Ax] = Ken m k? (K + o? I) 1k, 
(2) 中 间 层 ， 对 长 期 预测 进行 近似 推断 。 


这 一 层 的 目的 是 实现 策略 评估 ,， 即 计算 
Vo= D> fea) r(e de. 因为 我 们 已 经 通过 底层 算法 学 到 了 
概率 动力 学 模型 ， 因 此 值 永 数 的 计算 可 以 利用 该 模型 ， 不 再 需要 与 环 


境 交 互 。 


值 永 数 的 计算 公式 为 
V” (zo) = EO (14.5 ) 
其 中 c(zi) 为 人 为 给 定 的 奖励 函数 ， 若 要 计算 初始 状态 的 值 函 数 ， 
需要 计算 后 继 每 个 状态 Da， Dp 的 概率 分 布 p(zi)， t=1 ， i o 


如 何 计算 这 个 概率 分 布 呢 ? 运用 底层 学 到 的 高 斯 回归 模型 ! 
首先 我 们 来 看 当前 步 的 概率 分 布 : 


p(z) = || vlies- dol to ple Din si 1 一 1 (14.6) 


通过 分 析 方 程 (14.6) ， 为 了 计算 p) 我 们 需要 知道 : 

2D(zZi|Z 1 1)， p (0 _ 171， Dp (Ti_1) , 这 注定 是 一 个 递 推 的 
算法 。 因 为 第 t 步 的 状态 概率 分 布 P(7z) 的 计算 ， 需 要 用 到 前 一 步 即 t-1 
步 的 概率 分 布 P(Z:-1) 。 所 以 ， 我 们 需要 依次 计算 p(XD),…,p (zr) 。 

pluie- d) 的 计算 和 要 评估 的 策略 有 关 。 一 般 会 将 策略 参数 化 
为 上 -1 的 国 数 ， 因 为 Z-1 是 随机 变量 ,而 -1 又 是 Xi-1 的 图 数 ， 所 
A p (uilt) 的 分 布 可 由 p(a-1) 计算 得 到 。 

有 了 2Z(z -bw-1) ， 便 可 以 通过 底层 学 到 的 高 斯 回归 模型 计算 
P(A.) 的 概率 分 布 ， 再 根据 公式 (14.1) 和 (14.2) 得 到 p(x) 。 


后 继 状 态 概率 分 布 的 计算 可 分 成 四 个 阶段 ， 如 图 14.3 所 示 。 


X¢-1) state distribution at time t — 1 


P(Ut—-1) = P(Umax Sin(7(Xz~-1))) control distribution at time t — 1 


N 


(Xt-1, Ut_1) joint distribution of state and control at time t — 1 


(Ax:_1) predictive distribution of the change in state 


we 
帮工 ToT 


(Xz) state distribution at time t (via dynamics GP) 
图 14.3 后 继 状 态 概率 分 布 的 计算 

D 从 状态 分 布 Z(z,-1) 计算 动作 分 布 P(7 (zi-1))。 

在 开始 计算 Z(r(z,-D)) 之 前 ， 我 们 先 看 策略 r(z*) 。 策 略 是 状态 
的 函数 ， 如 策略 是 状态 的 线性 表示 。 (xz,) 二 Wr +v. HHY 是 一 
ASME, v 是 一 个 偏 移 向 量 。 

EM n (ax) 为 初步 策略 ， 若 z+~ 和 (1, 如 ) ， 则 初步 策略 也 为 高 斯 分 
其 均值 和 协 方 差 为 
B,.|7 (a) | =Wh+v 


布 


Y 


(14.7) 
COV, | (a.) | =p" 


KMR u = r (r) 往往 是 有 约束 的 ， 比 如 移动 机 器 人 的 最 大 运动 
速度 是 有 限制 的 。 令 WE [-UmaxsUmax] ， 利 用 正弦 函数 将 初步 策略 限制 
到 范围 内 ， 得 


T(Z) = Umax Sin (x (z) ) E [~ Umax; Umax] 


补充 完 策略 的 基本 知识 ， 我 们 再 来 看 p (7(z:_1)) 。 从 策略 参数 化 
和 约束 的 过 程 ， 我 们 知道 策略 分 布 的 计算 分 成 以 下 两 步 。 


Step 1: 计算 初步 策略 分 布 p(7(z，1) ) ， 线 性 化 策略 可 由 (14.7) 
式 计算 得 出 ; 
Step 2: 考虑 到 实际 策略 的 约束 函数 ， 计 算 策略 分 布 的 高 斯 逼近 
p(t (4-1) = p(umaxsin (7 (1-1) ) ) 
O 计算 联合 概率 分 布 P(z;-bw-1) = P(@ 1.7 (@-1)) a 


HRA T u 的 联合 概率 分 布 比较 困难 ， 也 可 分 为 两 步 完 
成 。 


Step 1: 计算 p(z， 17 (oe 

Step 2: 计算 联合 概率 分 布 : 

pega] var (T:—1) eral 
Us_1 MW) Lcov(u_1,2:-1) var(w1) 

其 中 ww _D 和 war(w_i) 已 经 在 上 个 阶段 计算 得 到 。 还 未 计算 出 


来 的 量 是 cov (We Ws) 
我 们 给 出 其 计算 公式 : 


cov [2;-1, W1] =cov|2,-1,m]cov| m (2-1), (z1) | ‘cov| (a1), tr- | (14.8 ) 
其 中 cov |z- a | 由 step1 计算 得 到 ， cov [x (x,-1),7 (z1) | “在 


一 阶段 计算 得 到 ， cov|m(o,.),u,1| 由 随机 变量 和 其 正弦 函数 的 
协 方差 计算 得 到 。 


下 面 我 们 给 出 (14.8) 式 的 证 明 。 
证 明 
补充 去 相关 操作 : 


Xi = ` > 
a x= (Y) 服从 mn 元 联合 Gauss 分 布 ， iz RRA 


v=(%)= 2 h IG ') 使 得 六 MY: 的 互 协 方差 为 0， 则 有 


0= E[(Y, — EY) (Y2— EY;) ”| 
=F OG = EX) COG— EX)" 1+ BAG EBX) (Xs— EX)" | 
= cov (X1, X2) + Acov (X>, Xə) 
由 上 式 得 到 
A=-cov(X,,X.)cou(X2,X2)" 
补充 完 去 相关 操作 后 ， 我 们 正式 进入 (14.8) 式 的 证 明 。 
对 | 0.1.7 | 施加 去 相关 操作 变 为 


|z, 1— cov| z,- wr |cov|r (zs Dr Dr om | 
也 就 是 向 量 
1 —cov|2,-1,7 cov | m (zi Dr (1) | (1) 5 7 (a,1) 是 独 
WAV. Miti = Worsin (7 (a.1)) ， 所 以 


zi 一 cov| z, wT |cov| m (zm DT (211) | (G1) Stet 相 
互 独立 ， 协 方差 为 零 ， 即 


N N N -1 N 
cov (1—cov | aya |eov [7 (2-1,7 (a1) | ro 


N N N =f N 
三 cov(Z Du LU — COV Ee COV [r (24-1),7 (1,-.)| cov (x (2, -1),th--) 


=0 
由 此 得 到 

cov (zr 1 1) =cov [zr cov | m (212),7 (a1) | cov (T(z Du 
证 明 完 毕 。 
© 计算 输出 分 布 P( 人 ) 。 


经 过 上 面 和 阶段 ， 我 们 得 到 了 高 斯 回归 概率 模型 的 输入 分 布 
p(X-1,Wi-1) ， 这 一 步 是 已 知 输入 分 布 的 情况 下 计算 输出 分 布 P( 介 ) 。 
输出 分 布 是 多 变量 预测 问题 ， 我 们 也 分 成 两 步 解 决 。 

Step 1: 单 变量 预测 问题 

设 输入 服从 XT*~N (u, E) ER”, yx ER ， 则 单 变量 预测 输出 也 是 
一 个 高 斯 分 布 ， 预 测 单 变 量 输 出 均值 为 

j = | h(as) p(h,a)d(h, a) = B, ,[h(as)|u, £] = En. [En [h(as) |e] | 1, £] 

应 用 到 (14.4) 式 得 到 

px = BE, [m, (£), £] = Jr (2+) N(x- u, 2) das = 87 q (14.9) 
其 中 
q= [qit Qn] ‘i = R” 


= fs (zi; £) N (x+y, ) dr» 


预测 输出 单 变 量 方差 为 


o? = var,, ,[h(a«)|u, 2] = ff oe — E,, ,h(a«))? p(a«,h)d (as,h) 


_ J | Í (四 - Ealo) (h(a) lo) 


= E,,(E,(((a@-)|») — Enah (e))?)) (14.10) 
= F, (E, (((h(0: ei B, (h( pariga E, ah(2))°)) 

E, (var, [h(z:)|z]) + B, [EB; (h(a+)|a+) — E.. Er (h (ae) te) 

E, (var, [h(as 和 ]) +var,, (zalzo] 


=f Le (ai (xs) |, ) “pds, [mw (a+) *|y, E] =~ E,.[m, (as )\u; X] Í 
应 用 到 预测 多 变量 输出 时 ， 输 出 多 变量 均值 为 
pl, = [BP q, Be gel” (14.11) 


其 中 每 一 项 由 (14.9) 式 给 出 。 
多 变量 预测 输出 的 协 方差 矩阵 为 


Var}, x. [hi |u, X] _ COV}, x. [hi help, | 


AE . (14.12) 
COVa,. lhg hiu, E] * Varra help, X] 
其 中 对 角 线 上 的 方差 由 公式 (14.10) 得 到 。 
现在 推导 非 对 角 线 上 的 协 方差 : 
COV», 2 [ha, hs |, E] = Ene [ha hi |p, E] — Ha bs (14.13) 


HH u, u 由 如 下 均值 公式 得 到 : 
Era [ha hy lp £] = E. Ep, [hile] En [hy [oe] | 2,0] = | ms (a) mp (as) p(as)dax (14.14) 


O 计算 后 继 分 布 。 


第 三 阶段 已 经 计算 了 高 斯 过 程 预测 输出 分 布 Z(A) ， 后 继 状 态 Z， 
与 输出 分 布 之 间 的 关系 由 (14.1) 得 出 ， 即 全: 二 Xi 一 Zi-1 十 E 。 后 继 
分 布 也 服从 高 斯 分 布 ， 其 均值 和 方差 为 

Wi: = Wit Ha 
Det = t Ea + coylei A] 十 cov[Az 1] 

其 中 2A 为 多 变量 预测 输出 的 协 方差 ， 上面 已 经 求 得， 唯一 没有 计 

算 的 是 输入 输出 之 间 的 协 方差 ， 该 协 方差 计算 如 下 。 
cov (zr, h(x:)) = En ,[a«h(ax)” | — En [a+] BE, [h(x:)] 
= E, naleh (as) "| — pa pë 


Ban [ah (a+) |b, | — E, [a+ Ey, [h (xx) |xe]| 1, | = [om (a+) p( ax) dat 


经 过 ~~@ 四 个 步 又， 我 们 得 到 后 继 状 态 的 分 布 2(z) ， 将 
plr) 作为 输入 再 计算 p(xi+1) 的 状态 分 布 ， 以 此 类 推 ， 计 算得 到 所 有 
后 继 状 态 的 分 布 P(Z),…,p (Xr) 。 最 后 计算 策略 评估 时 ， 要 将 所 有 的 
状态 分 布 乘 以 相应 的 回报 函数 紧 加 起 来 。 即 值 钞 数 为 


V"(z0) =~ / AET 


(3) 顶层 : 策略 更 新 
策略 更 新 采用 基于 梯度 的 策略 搜索 方法 。 当 策略 利用 线性 或 者 非 
线性 参数 化 后 ， 要 得 到 最 优 策略 就 要 找到 最 优 参数 ， 使 得 


T Earg minV™ (£) 
HAI 为 所 有 参数 空间 所 对 应 的 策略 空间 。 
下 面 我 们 求 值 水 数 相对 于 参数 的 梯度 : 


w a 


-> 总 gp Ee lele] 


由 于 服从 高 斯 分 布 ， 因 此 策略 参数 在 高 斯 分 布 的 均值 和 协 方 
差 中 。 我 们 得 到 : 


E, le(2)] = (g-B.Le(@)]) Ht + (se Emled) 


ð 
当 给 定 c(zs) 后 ， 可 以 解析 得 到 Bm Es [c(zs)] 和 gn, Es [e(a,) ] 


A 
点 


从 预测 步 可 知 ， 当 前 步 的 均值 内 MAU. 与 上 一 步 的 均值 内 -1 
MHAL,- 以 及 当前 步 的 策略 参数 V 有 天。 因此 对 参数 的 导 效 可 以 
BA 


dhi _ OL: dhi OL: dèii y. 
dy Ou-1 dy OX,-1 dy Ow 


dd, _ OX, dil- Od: dy 1 | Us 
dw DH 1 dy OX,-, dy 


OL 


Oy 
BA dM 1 d}; ` 
该 计算 式 其 实 是 个 迭代 计算 ， 将 前 一 步 的 梯度 db’ db 人 
入 当前 步 梯度 的 计算 。 
除 此 之 外 ， 就 剩 下 如 何 计算 当前 步 的 均值 和 协 方 差 对 参数 的 偏 导 
OM: dX, 
数 Ow 和 dy o 


从 当前 步 的 均值 预测 我 们 得 到 


Me = prt Be, ou LAG], AP w= rle) = usesin (7 (11,0) 


OW dw 


pp am, 6p (esin (SC))) (uv) 
Op (m(a-1)) Op (x ©) Oy 


Of(a) Op(a) _ Of(a) OE(a) , Of(a) Acov{a] 
Op(a) OW Ela] Ow ðcovla] Ow 


OM: i 
将 该 链 式 规则 代入 上 面 的 om 可 以 得 到 当前 步 的 梯度 。 


其 中 


最 后 将 所 有 步 的 梯度 相 加 就 是 值 玉 数 对 参数 的 梯度 ， 再 利用 共 斩 
梯度 法 或 随机 梯度 下 降 法 得 到 相应 的 更 新 步 。 
以 上 是 PILCO 推 导 的 所 有 关键 步骤 。 


14.3 滤波 PILCO 和 探索 PILCO 


本 节 我 们 介绍 PILCO 的 扩展 算法 。 可 能 有 同学 会 问 : 为 什么 要 花 
那么 大 气力 来 介绍 PILCO 及 其 扩展 算法 ? 我 先 给 个 数据 大 家 体会 一 
Fo 

对 于 小 车 倒立 摆 系 统 ，PILCO 方 法 只 需要 7 到 8 个 episode， 即 7 到 8 
次 尝试 就 能 使 该 系统 稳定 。 而 其 他 的 强化 学 习 方 法 ，ddpg 需 要 2500 个 
episodes ， 即 2500 次 尝试 。Rowan McAllister 在 论文 中 的 数据 图 (如 图 
14.4 所 示 ) 为 


PILCO 
— Deep PILCO 


10° PILCO — De eee 10? Gu et al. (2016) 10° Lilicrapeta W 6) 
s (log scale) 


图 14.4 不 同 强化 学 习 算法 比较 

可 以 看 出 ， 和 其 他 强化 学 习 算法 相 比 ，PILCO 具有 无 可 匹敌 的 数 
FER (data efficient， 智 能 体 与 环境 交互 的 次 数 ) o 

PILCO 是 否 还 可 以 继续 改善 呢 ? 

答案 是 肯定 的 。Rowan McAllister 从 以 下 三 个 方面 分 析 了 PILCO 并 
提出 了 改善 方法 。 

第 一 ，PILCO 算 法 假设 了 状态 完全 可 观 ， 可 测 ， 不 存在 测量 误 
差 。 然 而 ， 在 实际 中 状态 并 非 完全 可 观 的 ， 而 且 观 测 值 存 在 噪声 。 
McAllister 将 滤波 器 引入 到 PILCO 算 法 的 执行 步 和 预测 步 ， 实 现 了 
POMDP 问 题 中 的 PILCO 算 法 。 

第 二 ， 在 策略 改善 步 ，PILCO 利 用 优化 方法 最 小 化 累积 代价 函数 
的 均值 得 到 新 的 参数 。 这 样 得 到 的 新 参数 其 实 只 有 “exploitation”， 而 没 
有 “exploration”。 说白 了 就 是 ， 该 优化 过 程 只 考虑 了 当前 最 优 ， 没 有 考 
虑 模型 的 不 确定 性 。 对 于 模型 未 知 的 系统 ， 我 们 在 探索 最 优 策略 的 时 
候 除 了 采用 当前 最 优 还 要 考虑 探索 未 知 的 模型 。 考 虑 探索 的 策略 最 常 
用 的 是 s-greedy 策 略 ， 即 以 大 的 概率 采用 当前 最 优 策略 ， 以 小 的 概率 采 
用 其 他 策略 。 这 是 一 种 随机 探索 策略 ， 探 索 效率 并 不 高 。 为 了 提升 探 
索 效 率 ，Rowan 提 出 基于 贝 叶 斯 优化 (BO 方法 ) 的 有 向 探索 方法 。 

第 三 ，PILCO 算 法 一 直 被 诉 病 和 攻击 的 弱点 是 其 模型 计算 复杂 度 
随 着 观测 状态 的 维 数 指数 增长 ， 因 此 难以 应 用 到 高 维 的 系统 中 ， 所 以 
PILCO 算法 也 只 能 在 小 车 倒立 摆 这 种 简单 的 系统 中 做 实验 。 要 扩展 ， 


YE! 但 是 PILCO 的 方法 数据 效率 确实 高 ， 能 不 能 将 PILCO 的 优点 保留 下 
来 并 去 除 其 缺点 呢 ? 

Rowan 分 析 ， 导 致 PILCO 算法 计算 复杂 度 随 着 观测 状态 维 数 指 关 
增长 的 原因 是 模型 拟 合 时 采用 了 高 斯 过 程 回 归 模 型 ， 这 个 模型 能 不 能 
换 掉 ? 别 筷 了 ，PILCO 效 果 好 ， 主 要 归功 于 高 斯 过 程 模 型 。 真 是 应 了 
那 句 话 ， 成 也 萧何 败 萧何 ， 高 斯 回归 模型 就 是 这 里 的 萧何 ，PILCO 就 
是 韩信 。 

如 何 换 掉 PILCO 中 的 高 斯 回归 模型 ? Rowan 似乎 力不从心 。 但 
是 ， 别 忘 了 他 是 剑桥 大 学 的 学 生 ， 更 别 忘 了 他 在 剑桥 大 学 的 机 器 学 习 
组 《大 神 zoubin 组 ) ， 这 里 大 神 云集 。 对 于 这 个 问题 作者 Rowan 联 合 了 
组 里 的 深度 学 习 大 牛 Yarin Gal 一 起 解决 ， 提 出 利用 贝 叶 斯 神经 网 络 替 换 
高 斯 过 程 模型 ， 解 决 维 数 灾 难 的 问题 。 至 于 如 何 解决 ， 我 们 在 下 一 节 


介绍 。 


14.3.1 滤波 PILCO 算 法 


如 图 14.5 所 示 为 PILCO 算 法 的 概率 图 描述 ， 其 中 灰 底 圆圈 表示 可 观 
的 随机 变量 ， 白 底 圆 圈 表 示 未 知 的 随机 变量 。 从 中 可 以 看 出 ，PILCO 
的 预测 和 规划 都 是 在 状态 空间 中 进行 的 。 但 一 旦 把 传感器 噪音 考虑 进 
来 ， 便 无 法 得 到 真实 的 状态 量 ， 只 能 通过 传感器 的 值 (滤波 的 方法 ) 


来 估计 。 
-P 
f 


/rl z 


D C 


图 14.5 PILCO 概 率 图 描述 


如 图 14.6 所 示 为 带 有 滤波 的 PILCO 概 率 描 述 图 ， 其 中 灰 底 圆圈 代表 
可 观测 的 随机 变量 ， 日 底 圆 圈 表 示 未 知 随机 变量 。 


214.6 带 有 滤波 的 PILCO 概 率 图 描述 


与 PILCO 不 同 ， 带 有 噪声 的 系统 的 真实 状态 空间 是 未 知 的 ， 只 能 
通过 观测 值得 到 状态 空间 的 置信 空间 。 预 测 和 规划 都 在 置信 空间 中 进 
{To 

带 有 滤波 的 PILCO 算 法 与 如 图 14.7 所 示 的 原 PILCO 算 法 伪 代 码 相 
同 。 不 同 的 地 方 在 第 8 行 (图 14.7) 和 第 5 行 。 第 8 行 是 执行 相 ， 第 5 行 是 
仿真 相 。 这 两 行 都 需要 利用 滤波 算法 ， 下 面 分 别 前 述 。 


Algorithm 1 PILCO 
1: Define controller’s functional form: 7 : X; x Y > Up. 
2: Execute system with random controls one episode to generate initial data. 
3: for episode e = | to E do 
4: Learn dynamics model p( f). 
5: Simulate state trajectories from p(Xo) to p(X7) using 7. 
6: Evaluate controller: J(Xo.7.w) = ye Ĝi, G = Ex [cost(X;)|y]. 
7: Improve controller: y + argminycy/ (y). 
8: Execute system, record data: Xe = |x9-7_1.Mo:7_-1], Ye = X1:7. 
9: end for 


如 图 14.7 PILCO 伪 代码 
(1) 第 8 行 (执行 相 ) 。 
当 使 用 一 个 实际 的 滤波 器 时 ， 它 假设 已 知 三 个 信息 : 


Met—1) Vee—15 Yt 


滤 疲 器 的 使 用 过 程 包括 滤 疲 器 更 新 步 和 滤波 器 预测 步 两 个 阶段 。 


e 滤 疲 器 更 新 步 

所 谓 滤 波 器 ， 本 质 上 是 对 先 验 预测 让 :~ 人 (ms Vie—1) FOS 
观测 似 然 率 进行 加 权 求 和 。 

Rig WW R g H wate? ， 则 观测 似 然 率 为 
pY) =N(2 E5), 滤波 器 的 输出 为 bie~ N (Mae, Vae) ， 其 中 ， 均 
(EI M 二 Wm-1 十 Wyy ， 方 差 为 Vu = Wm Vat-1 ， 权 重 阵 为 


Wm = 2 (Viri 下 >) 和 
W, Vita (Vas-1 + 5) 7 


FERIZAJI IEA u: = T (my, Y) o 


执行 时 控制 不 是 随机 的 ， 而 是 一 个 确定 的 数 。 但 是 ， 随 机 数 和 
确定 的 数 仍然 可 以 写成 一 个 联合 分 布 ， 其 表示 为 


Bit _ 全 Ml K al) 
ba 四 N(mia= | Ut |Pa= 0 0 
e 滤 波 器 预测 步 
滤波 器 预测 步 的 思路 是 从 动力 学 模型 上/ 计算 预测 分 布 
berij~p (Terilyi:s) V1:s) o 分 布 1 一 般 不 好 处 理 ， 而 且 是 非 高 斯 
的 ， 以 利用 高 斯 分 布 对 其 进行 近似 。 
输出 均值 为 
Mir i= By AD] 


= 82 p2 qa +62 mu 
输出 协 方 差 为 


Vie = [Bs (Qo — 990 ) Bo + San (827 — tr ((K. + BE) *Qaa)) | 
+C? V up toT V Cr + pT Vag 

(2) 第 5 行 (预测 相 ) 。 

在 仿真 相 中 ， 由 于 无 法 用 现实 的 世界 产生 Yi 的 观测 ， 我 们 假设 系 
统 的 置信 方程 为 

Y, = By_-1t+ef~N (wi, X!) 

Bh, IEA H =m, HERL =E HV HEE, 

滤波 更 新 步 : 

Buu~N (Mu Vw) ， 为 分 层 随机 变量 ， 如 图 14.8 所 示 为 分 层 随 
机 变量 图 模型 ， 具 体 的 分 层 公 式 为 

Mui~N (wit, Die) 


Hit = Wm pti + Wy, Hit-1 = Hit -1 
Du = Wr Ym i Wm oi Wy + W, YR Wt W, YY Wy 


Vie = Wa Vin 


\ 

M | 
/ 

/ 


| BY 
oy 
图 14.8 分 层 随 机 变量 示意 图 
控制 决策 为 
U =n (Map) 
控制 决策 也 是 一 个 随机 变量 。 
联合 分 布 : 


~ fM 人 ERO LBC 

M w= | | (uli = p tt = os p m = | 
t t Mu tlt t 

渡 疲 器 预测 步 : 


Birse N (MeripV rik) 
BH Mie N (Hii Etre) o 


14.3.2 有 向 探索 PILCO 算 法 


如 前 所 述 ，PILCO 是 一 个 贪 楚 优化 的 过 程 ， 只 有 exploitation (FI 
用 ) 没有 exploration (探测 ) 。 该 特征 具体 表现 在 图 14.7PILCO 算 法 的 
第 7 行 ， 即 只 优化 票 积 代价 的 均值 琐 数 ， 而 没有 利用 它 的 方差 。 累 积 代 
价 的 方差 图 数 携带 不 确定 性 信息 (探索 信息 ) ， 因 此 ， 能 平衡 利用 和 


RAW SEMAZRES BARA, DES RANKIN 
AA EK. 

有 向 探索 PILCO 算 法 与 PILCO 算 法 唯一 的 区 别 就 在 第 7 行 的 优化 目 
标 上 。 

我 们 改变 控制 器 的 评估 步 ， 不 再 像 PILCO 算法 那样 优化 均值 楷 积 
代价 人 以 ， 而 是 优化 均值 和 方差 的 函数 BO (ui, EE). 

在 执行 一 个 单独 的 episode 时 ， 由 于 我 们 假设 控制 器 优化 是 缓慢 
的 ，episodes 必 须 在 线 执行 ， 因 此 控制 器 并 不 改变 。 我 们 考虑 在 不 同 的 
episodes 之 间 探 索 的 改变 是 必要 的 。 

有 向 探索 PILCO 是 优化 均值 和 方差 的 水 数 ， 即 优化 BO 疯 数 。 下 面 
我 们 对 常用 的 BO 函数 进行 简单 介绍 (四 个 BO 函数 ， 其 中 一 个 简单 的 
单 参数 启发 式 图 数 ， 三 个 启发 式 无 参数 ) 

(1) 第 一 个 BO 函数 : Upper confidence bound (UCB) 。 
平衡 探索 和 利用 ， 最 简单 的 钞 数 是 利用 置信 度 上 界 : 
UCB(C?) = pi — Boe 
其 中 6 是 一 个 自由 参数 ， 用 来 平衡 利用 ( ys) 和 探索 os 


(2) 第 二 个 BO 函数 ，Probability of Improvement (PI) o 
考虑 到 我 们 的 智能 体 已 经 执行 了 一 些 不 同 的 控制 器 ， 不 同 的 控制 
器 参数 在 更 中 。 假 设 目前 最 低 的 劣迹 代价 为 C -N (HU* ,2* ) 。 设 任意 
控制 器 的 参数 对 应 的 累积 代价 为 C2 ~ (u, Ee), PERAKE 
策略 更 好 的 概率 : 
PI(C?) =- p(C?<C) 


C C 
— _He TF H —] 
VESHE 


(3) 第 三 个 BO 函数 Expected Improvement (EI) o 


一 个 病态 情况 是 ， 当 PI 在 策略 T” 有 999% 的 机 会 进行 无 用 的 改进 ， 
而 控制 器 r” 有 98% 的 机 会 进行 有 用 的 改进 时 ，PI 的 方法 肯定 选择 前 
者 ， 即 使 后 者 直观 上 来 说 提供 了 一 个 更 好 的 改进 时 。 Expected 
Improvement 通 过 限 幅 改 进而 权重 化 了 概率 改进 。 


EI(CY) = Eœ [min (C? — C*,0)] 
E C C 
He 一 /er C C He — H* C C 
= 
ea) ee (ea | 
(4) 第 四 个 BO 函数 Gittins Index (GI) 基 迁 斯 指数 。 
逼近 的 基 廷 斯 指数 为 


C 
e 


2 
GT Pper coc,o : =) = Cay Oe 
(u y y) H Y o? +o? 


14.4 深度 PILCO 


前 两 节 介 绍 了 PILCO 两 个 方面 的 扩展 ， 即 渡 疲 PILCO 和 有 向 探索 
PILCO。 这 两 个 方面 的 探索 还 是 基于 高 斯 回归 模型 的 。 正 如 上 一 节 分 
析 的 ， 高 斯 回归 模型 难以 推广 到 高 维 空间 。 因 此 ，Rowan McAllister 利 
用 贝 叶 斯 神经 网 络 代 蔡 高 斯 回归 模型 对 PILCO 进 行 扩 展 ， 即 深度 
PILCO。 

PILCO 数 据 效率 高 的 主要 原因 是 所 采用 的 模型 是 概率 模型 ， 而 且 
在 预测 将 来 步 时 ， 每 一 步 的 输出 都 是 个 概率 分 布 ， 而 输入 也 是 概率 分 
布 。 采 用 贝 叶 斯 神经 网 络 代替 高 斯 回归 模型 ， 应 该 使 得 贝 叶 斯 神经 网 
络 模型 具有 这 个 能 力 。 下 面 我 们 看 看 Rowan McAllister 是 如 何 使 贝 叶 斯 
神经 网 络 模型 具有 这 两 个 能 力 的 。 

第 一 ， 输 出 不 确定 性 。 

对 于 高 斯 回归 模型 ， 当 给 定 一 个 输入 时 ， 其 输出 是 一 个 分 布 。 而 
对 于 一 般 的 神经 网 络 ， 输 出 往往 是 一 个 确定 的 数 。 贝 叶 斯 神经 网 络 跟 
一 般 的 神经 网 络 不 同 之 处 是 它 的 输出 也 是 个 分 布 。 

那么 什么 是 贝 叶 斯 神经 网 络 呢 ? 


从 网 络 的 结构 来 看 ， 贝 叶 斯 神经 网 络 和 一 般 的 神经 网 络 没有 任何 
区 别 ， 也 包括 输入 层 ， 隐 含 层 和 输出 层 。 不 同 的 是 ， 这 两 个 网 络 得 到 
权 值 的 方式 不 一 样 。 

对 于 一 般 的 神经 网 络 ， 我 们 是 如 何 得 到 权 值 的 ?通用 的 方法 就 是 
给 一 个 训练 集 ， 一 个 损失 函数 ， 然 后 利用 训练 集 和 使 得 损失 函数 最 
小 ， 从 而 得 到 权 值 。 

贝 叶 斯 神经 网 络 并 不 是 这 样 得 到 权 值 的 。 

贝 叶 斯 神经 网 络 会 根据 已 有 的 观测 数据 ， 即 训练 数据 ， 来 推测 出 
网 络 的 权 值 应 该 是 多 少时 才 产 生 这 样 的 观测 数据 (也 就 是 训练 数 
据 ) 。 

如 何 推测 呢 ? 

当然 是 用 贝 叶 斯 公式 了 ， 即 
p(Y|X,w) p(w) 

p(Y|X) 

式 中 X 和 Y 为 训练 集 的 数据 。 假 设 我 们 已 经 通过 各 种 方法 得 到 了 权 
值 的 后 验 分 布 ， 那 么 对 于 一 个 新 的 点 Z”， 利 用 贝 叶 斯 神经 网 络 ， 可 以 
预测 其 输出 为 


p(w|X,Y) = (14.15) 


Wk a= J 二 rane 


利用 贝 叶 斯 神经 网 络 的 难点 是 如 何 计算 (14.15) 式 中 的 分 母 项 ， 
在 深度 学 习 领 域 ， 这 一 项 往往 称 为 配 分 图 数 。 配 分 国 数 的 计算 公式 为 


p(Y|X) = fo) a ( 14.17) 


计算 这 个 积分 又 称 为 marginalising， 对 参数 进行 边界 化 处 理 。 在 贝 
叶 斯 线性 化 回归 中 ， 边 界 化 可 通过 解析 的 方法 计算 得 到 。 但 是 在 大 部 
分 模型 中 ， 边 界 化 无 法 得 到 。 

由 于 边界 化 难以 计算 得 到 ， 因 此 (14.15) 式 的 计算 难以 得 到 。 需 
要 用 近似 分 布 逼 近 (14.15) 式 ， 最 常用 的 方法 是 定义 一 个 参数 化 的 到 


近 变 分 分 布 ge (w) ， 其 中 参数 为 0 ， 最 小 化 两 个 分 布 之 间 的 KL 散 度 : 


= _ Go(w) 
KL (qo (w)||p (w|X, Y) ) = | wiogs E dw (14.18) 
得 到 逼近 分 布 ‰o (w) 之 后 ， 我 们 便 能 逼近 预测 分 布 (14.16) x, 
Rp 


e RE J a Ga Cado) 
KL 散 度 最 小 化 也 等 价 于 最 大 化 下 界 : 
Lvi(0):= J qo (w)logp (Y|X,w)dw — KL (qo (w)||p (w)) 


这 个 过 程 相当 于 变 分 推理 (VI) o Yarin Gal 在 他 的 博士 论文 
Uncertainty in Deep Learning 中 基于 蒙特 卡 罗 和 子 采样 技术 提出 了 一 个 
实用 的 变 分 推理 方法 ， 得 到 最 优 参数 。 这 里 就 不 详细 介绍 了 .总 之 ， 当 
给 定 一 个 新 的 点 时 ， 利 用 贝 叶 斯 神经 网 络 会 得 到 一 个 输出 分 布 ， 即 

(14.19) 式 。 

第 二 ， 输 入 不 确定 性 。 

PILCO 能 够 通过 高 斯 模型 解析 地 传递 不 确定 性 ， 神 经 网 络 无 法 做 
到 。 因 为 ， 神 经 网 络 的 输入 往往 是 一 个 确定 的 值 。 为 了 将 不 确定 性 分 
布 融入 动力 学 模型 ，Rowan 提 出 利用 粒子 的 方法 。 

什么 是 粒子 的 方法 ? 

说 白 了 就 是 多 采 几 个 点 。 因 此 ， 这 就 涉及 输入 分 布 的 采样 。 

如 图 14.9 为 深度 PILCO 的 预测 过 程 。 单 纯 基 于 粒子 的 方法 可 能 会 导 
致 粒子 退化 ， 也 就 是 说 粒子 的 多 样 性 会 变 差 ， 所 有 的 粒子 趋向 于 相 
fal, Rowan 引入 了 重 采 样 技术 ， 并 利用 和 矩 匹 配 的 方法 对 粒子 分 布 进行 
重新 拟 合 。 也 就 是 图 14.9 中 第 10 行 到 第 11 行 。 


Algorithm 2 Step 6 of Algorithm 1: Predict system trajec- 
tories from p( Xo) to p( Xr) 

: Define time horizon T. 

2: Initialise set of K particles xk ~ P(Xo). 

3: for k = 1 to K do 

4: Sample BNN dynamics model weights W*. 
5: end for 
6: 
有 
8: 


一 


for time t = 1 to T do 
for each particle zl to z% do 
Evaluate BNN with weights W* and input particle 
zx}, obtain output yt. 
9: end for 
10: Calculate mean ju and standard deviation o? of 
{v}, -yi }- 
11: Sample set of K particles z}, , ~ N (p, o2). 
12: end for 


图 14.9 深度 PILCO 预 测 过 程 


后 记 


书 虽 然 结 束 了 ， 但 研究 才刚 刚 开 始 ! 

强化 学 习 中 的 很 多 课题 如 多 智能 体 强化 学 习 、 分 层 强化 学 习 、 元 
强化 学 习 、 渤 移 学 习 等 ， 在 书 中 尚未 讨论 ， 但 这 些 高 级 课题 会 在 知 平 
专栏 《强化 学 习 知 识 大 讲堂 》 中 陆续 更 新 ， 请 大 家 多 多 关注 。 另 外 ， 
本 书 第 四 篇 名 为 “强化 学 习 研 究 及 前 沿 "， 但 书 中 所 说 的 “前 沿 ” 也 只 是 
相对 的 。 强 化 学 习 领 域 日 新 月 异 ， 新 的 理论 和 方法 如 雨后春笋 一 般 出 
现 。 如 今 ， 强 化 学 习 领 域 几 乎 每 个 月 都 会 有 新 的 突破 ， 新 论文 出 现 的 
速度 远大 于 个 人 阅读 的 速度 ， 真 是 令 人 应 接 不 暇 。 这 有 点 儿 像 2013 年 
左右 的 深度 学 习 领 域 。 不 过 ， 剥 开 这 些 新 算法 的 外 衣 ， 你 会 发 现 其 基 
本 的 概念 和 工具 还 是 本 书 所 涉及 的 内 容 。 所 谓 万 变 不 离 其 宗 ， 只 有 深 
入 理解 基本 概念 ， 我 们 才 不 会 在 理论 和 知识 的 快速 迭代 更 新 中 惊慌 失 
措 。 

本 书 成 稿 成 于 2017 年 6 月 份 。 从 2017 年 6 月 至 本 书 公开 出 版 期 间 ， 
学 术 界 和 工业 界 又 发 生 了 一 系列 大 事 ， 摘 录 如 下 。 

e2017 年 7 月 份 ， 强 化 学 习 算 法 的 两 大 阵营 DeepMind 和 OpenAI 分 
别 公布 最 新 的 具有 和 鲁 棒 性 的 无 模型 强化 学 习 算 法 : 近 端 优化 算法 
(PPO) ; 

e2017 年 8 月 份 ，DeepMind 和 暴雪 合作 开 产 星际 争霸 2， 开 局 强化 
学 习 新 的 征战 领域 ; OpenAI 在 dota2 的 1V1 比 赛 中 击败 人 类 顶级 玩家 ; 

e2017 年 10 月 份 ，DeepMind 在 《Nature》 发表 AlphaGo Zero 技 术 细 
节 ， 提 出 新 的 强化 学 习 算法 框架 ， 震 惊 行 业内 外 ; 

突破 没有 停止 ， 也 不 会 停止 。 

未 来 几 年 ， 强 化 学 习 算 法 会 在 各 行 各 业 不 断 给 我 们 带 来 惊喜 ! 

我 们 会 拭目以待 ， 我 们 也 会 打 好 基础 ， 练 好 内 功 ! 

或 许 不 经 意 间 ， 我 们 自己 也 会 创造 历史 ! 


v 
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